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Kurzfassung 


Adaptive Dynamic Programming (ADP) steht als vielversprechendes und zukunftsorientiertes 
regelungstechnisches Werkzeug im Fokus der aktuellen Forschung. Allerdings existieren 
hierfür bislang weder flexibel einsetzbare, mit dem ADP-Mechanismus kompatible Solltrajek- 
toriendarstellungen noch theoretische Untersuchungen hinsichtlich einer geeigneten System- 
anregung zur Sicherstellung der Konvergenz. 


Die vorliegende Arbeit schließt diese Lücken: Zum einen werden erstmals zeitdiskrete und 
zeitkontinuierliche Methoden präsentiert und analysiert, die flexible Solltrajektoriendarstel- 
lungen in ADP-Ansätze integrieren. Die explizite Abhängigkeit der vorgestellten, neuartigen 
Value- bzw. Q-Function und des darauf basierenden gelernten Regelgesetzes von Trajektorien- 
parametern, die den aktuellen Sollverlauf repräsentieren, ermöglicht eine variable Vorgabe 
der Solltrajektorie zur Laufzeit. Zum anderen werden erstmalig theoretische Bedingungen 
an den Systemzustand hergeleitet, die sicherstellen, dass eine für die Konvergenz der Adap- 
tion zentrale Anregungseigenschaft erfüllt ist. Verbleibende Freiheitsgrade erlauben zudem 
die Berücksichtigung anwendungsspezifischer Anforderungen bei der Systemanregung. Die 
theoretischen Aussagen werden in Simulationen bestätigt. 


Erste reale Anwendungen der vorgestellten adaptiven optimalen Trajektorienfolgeregelungs- 
methoden offenbaren schließlich das Potenzial dieser Ansätze. Flexible und effiziente Regler, 
die aufgrund der Berücksichtigung des Solltrajektorienverlaufs vorausschauend agieren, kön- 
nen ohne aufwendige Modellbildung aus realen Messdaten erlernt werden und sind zudem 
bisherigen Ansätzen bezüglich ihrer Performanz überlegen. 
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1 Einleitung 


Lernbasierte, adaptive Optimalregelungsmethoden rücken zunehmend in den Fokus der ak- 
tuellen Forschung [WHL17], [SB18], [KHL*12]. Während modellbasierte optimale Rege- 
lungsansätze (vgl. beispielsweise [Gee07], [SMC* 11], [TBBH10]) nur anwendbar sind, wenn 
ein Systemmodell vorhanden ist [LV09], [VLV13, S. 1], liegt der Fokus von selbstlernenden 
Optimalreglern auf Anwendungen, bei denen kein oder nur unvollständiges Systemwissen 
vorliegt, eine Modellbildung aufwendig ist oder unbekannte Parameter schwierig zu ermitteln 
sind [HJK20]. Adaptive, lernende Ansätze erlauben somit trotz vorhandener Modellunsicher- 
heiten den Entwurf leistungsfähiger, flexibler Regler [Wer99], [Wer92], [SBW92], [Tao03, 
S. 10], [HLM03]. Flexible Reglerentwurfsmethoden [CF14], [LLSX14] und damit einhergehen- 
de Fertigungsprozesse [MMP* 10] versprechen schließlich Produkte und Anwendungen, die 
an kundenspezifische Wünsche und individuelle Nutzungsanforderungen angepasst werden 
können. Derartige Anforderungen sind insbesondere im Kontext der Industrie 4.0 verstärkt 
zu erwarten [Pla19]. Im Vergleich zu nicht-optimierungsbasierten adaptiven Regelungsan- 
sätzen (vgl. beispielsweise [AW95], [Tao03], [IS96]) steht bei den in der vorliegenden Arbeit 
betrachteten Methoden die Minimierung eines zugrunde liegenden Gütefunktionals bei der 
Adaption von Reglergewichten im Zentrum (vgl. [KHL* 12], [LVV12], [VLV13, S. 4]). Dabei 
können gewünschte Designziele, wie beispielsweise Kosten, Präzision, Zeitverhalten, Energie- 
verbrauch, Komfort, Sicherheit und individuelle Bedürfnisse, durch Gütemaße berücksichtigt 
werden [LVS12], [AM89], [Ber95]. 


Reglerparameter basierend auf Simulations- oder Messdaten sowie einem Belohnungssignal 
zu adaptieren, um ein optimales Regelgesetz zu erlernen, entspricht dem Grundprinzip des 
Reinforcement Learning (RL) [SB18]. Mithilfe von RL ist es in den letzten Jahren gelungen, 
tiefe neuronale Netze zu trainieren und komplexe Aufgaben zu lösen. So konnten Meister 
des Brettspiels Go erstmalig durch einen Computer besiegt [SSS* 17], [SHM* 16], Greifbe- 
wegungen für Roboter unter Nutzung von Kameradaten gelernt [KIP*18] und Bewegungen 
einer robotischen Hand erlernt werden [ABCt 20]. Jedoch musste für diese Erfolge ein er- 
heblicher Trainingsaufwand betrieben werden, insbesondere wurden sehr große Mengen an 
Trainingsdaten benötigt. Beispielsweise spielte der Go-Computer ALPHAGO ZERO [SSS* 17] 
im Laufe des Trainingsprozesses fast fünf Millionen komplette Partien gegen sich selbst, Ka- 
lashnikov et al. [KIP*18] sammelten Trainingsdaten aus 580 000 Greifversuchen über einen 
Zeitraum von vier Monaten und betrieben dazu gleichzeitig sieben Roboterarme, während 
Andrychowicz et al. [ABCT 20] mithilfe einer Simulationsumgebung künstlich generierte 
Trainingsdaten nutzten, die, abhängig von der Variabilität der Umgebung, drei bis 100 Jahren 
an realen Erfahrungsdaten entsprachen. 


2 1 Einleitung 


Aus einer anwendungsorientierten und regelungstechnischen Perspektive sind solche au- 
ßerordentlichen Datenmengen zum Training in bestimmten Anwendungen jedoch nicht 
verfügbar oder unpraktikabel [DAMH19], [BBdE10, S. 8]. Beispiele sind Messdaten realer 
technischer Systeme, Mensch-Maschine-Systeme oder biomedizinische Anwendungen (vgl. 
[LL04], [HMT* 21], [GSK19]). Aus diesem Grund wird in der vorliegenden Arbeit das Kon- 
zept des sogenannten Adaptive Dynamic Programming (ADP)! [Wer92], [BT96], [MCLS02], 
[LV09], [LVV12] betrachtet, das eine Kombination aus adaptiver und optimaler Regelung 
darstellt [KHL* 12] und Mechanismen des Reinforcement Learning nutzt. Die Einbeziehung 
gegebenenfalls vorhandenen Vorwissens über das System und die zugrunde liegende Problem- 
stellung, wie beispielsweise die Systemordnung oder die Struktur der gesuchten Lösung, kann 


hierbei die Komplexität des Trainingsvorgangs und somit die Menge der benötigten Trainings- 
daten entscheidend reduzieren (vgl. [Gör17], [BBdE10, Abschnitt 3.7.3 und Abschnitt 5.4]). 
ADP stellt zudem im Gegensatz zum klassischen, indirekten Vorgehen, zunächst ein System- 
modell zu identifizieren und anschließend eine modellbasierte Optimierung vorzunehmen, 
einen ganzheitlichen (vgl. [SB18, S. 3]), direkten Ansatz dar [LV09, S. 41], [SBW92], [JJ12], 
[FWS* 18]. 


Dieser regelungstechnischen und anwendungsorientierten Perspektive folgend werden in 
der vorliegenden Arbeit zwei zentrale und bislang nur unzureichend gelöste Probleme ADP- 
basierter Regelungsansätze behandelt: 


1. ADP-basierte Solltrajektorienfolgeregler und 
2. Konvergenzbedingungen für eine erfolgreiche Adaption. 


Die Relevanz der ersten Problemstellung resultiert dabei aus der Anforderung vieler techni- 
scher Anwendungen, wie beispielsweise Fahrzeugen, Robotern oder verfahrenstechnischen 
Anlagen, dass Systemgrößen einer vorgegebenen Referenz- bzw. Solltrajektorie folgen sollen 
(vgl. z.B. [BK18], [FOSH14], [SCN*04], [LLHW16], [MBTL12], [DCP96]). Viele Literatur- 
beiträge zu ADP-basierten Methoden beschränken sich jedoch entweder auf den Fall, den 
Systemzustand optimal bezüglich eines Gütemaßes zu null zu regeln, oder betrachten Referenz- 
trajektorien unter sehr einschränkenden Annahmen. In Anwendungen, wie beispielsweise der 
Robotik oder dem hochautomatisierten oder autonomen Fahren, die im Allgemeinen eine mög- 
lichst flexible und zur Laufzeit veränderbare Solltrajektorienvorgabe erfordern (vgl. [van97]), 
sind bestehende ADP-Ansätze daher ungeeignet. Eine wesentliche Herausforderung beim 
Entwurf von ADP-Zustandstrajektorienfolgereglern ist eine Repräsentation der Solltrajekto- 
rie, die in den ADP-Formalismus integriert werden kann. Eine hierfür geeignete Darstellung 
des Sollzustandsverlaufs, die einerseits eine flexible Solltrajektorienvorgabe ermöglicht und 
andererseits mit einem vertretbaren Lernaufwand verbunden ist, ist dabei nicht trivial, spezi- 
ell aus einer anwendungsorientierten Perspektive jedoch unverzichtbar. Bislang existieren 


Weitere Bezeichnungen sind Approximate Dynamic Programming [Wer13], Neuro-Dynamic Programming [BT96], 
Heuristic Dynamic Programming [Wer77] oder Incremental Dynamic Programming [Wat89]. In der Literatur 
werden die Begriffe ADP und RL gelegentlich synonym verwendet [Gos09]. Eine präzise Abgrenzung ist im 
Allgemeinen nicht möglich [Wer13], die Bezeichnung ADP deutet jedoch meist auf einen eher regelungstechnisch 
orientierten Zweig des RL hin (vgl. [Gör17], [BBT+ 18], [LV09)). 


1 Einleitung 3 


somit weder eine allgemeine theoretische Definition, unter welchen Bedingungen eine Soll- 
trajektoriendarstellung kompatibel für die Verwendung im ADP-Kontext ist, noch geeignete 
Ansätze ADP-basierter Solltrajektorienfolgeregler, welche die Einbeziehung einer von außen 
vorgebbaren Repräsentation variabler Solltrajektorienverläufe ermöglichen. Die vorliegende 
Arbeit schließt diese Lücke. Neben der theoretischen Analyse, Simulation und Diskussion der 
präsentierten Ansätze wird zudem die Anwendbarkeit von ADP-basierten Solltrajektorienfol- 
gereglern anhand zweier realer Anwendungsbeispiele untersucht. 


Ein zweiter wesentlicher Aspekt ADP-basierter Regler ist die Frage, unter welchen Bedin- 
gungen die Konvergenz des Lernprozesses gewährleistet ist. Diese Frage hängt eng mit dem 
Begriff der Exploration aus dem Bereich des RL zusammen. Dabei muss stets ein Kompromiss 
zwischen dem Ausprobieren neuer Stellgrößen und Zustände, die möglicherweise bislang 
unbekannte, bessere Optionen zutage bringen, und dem Ausnutzen bisheriger Erfahrungen 
eingegangen werden (Exploration-Exploitation-Dilemma) [SB18, S. 3]. Anschaulich betrachtet 
müssen die Trainingsdaten kausale Zusammenhänge, wie das Systemverhalten, den Einfluss 
potenzieller weiterer Akteure und die resultierenden Kosten, angemessen abbilden. Für ei- 
ne erfolgreiche Konvergenz von ADP-Reglern ist somit eine ausreichende Anregung des 
Systems bzw. der für die Adaption relevanten Signale erforderlich. Speziell im Kontext des 
ADP existieren bislang jedoch kaum theoretische Erkenntnisse, wie eine geeignete Anregung 
entworfen werden kann [JKBD15] und welche Bedingungen die Systemzustände erfüllen 
müssen, um Konvergenz des Adaptionsprozesses zu erzielen. Der zweite zentrale Beitrag 
der vorliegenden Arbeit ist daher durch hinreichende Bedingungen an den Systemzustand 
gegeben, die gewährleisten, dass die für die Konvergenz benötigte Anregung des Systems 
erfüllt ist. Die theoretischen Ergebnisse werden anhand von Simulationen analysiert und 
diskutiert. 


Gliederung der Arbeit 


Die vorliegende Arbeit ist wie folgt gegliedert: Kapitel 2 gibt einen Überblick über den 
relevanten Stand der Wissenschaft und führt benötigte Notationen und Begriffe ein. Dabei 
werden Forschungslücken herausgearbeitet, Forschungsfragen konkretisiert und ein Überblick 
über die Beiträge der vorliegenden Arbeit gegeben. Die Kapitel 3-6 bilden anschließend 
den Kern der Arbeit. Eine schematische Übersicht dieser Hauptinhalte ist in Abbildung 1.1 
dargestellt. 


Dabei werden in Kapitel 3 und Kapitel 4 flexible Referenztrajektoriendarstellungen, die mit 
dem ADP-Formalismus kompatibel sind, vorgestellt. In zeitdiskreter Formulierung (Kapitel 3) 
werden einerseits parametrierte Solltrajektorienverläufe für den Entwurf eines ADP-basierten 
Trajektorienfolgereglers entwickelt, andererseits wird eine Methode zur direkten Verwendung 
der Sollzustände auf einem endlichen Vorausschauhorizont vorgestellt. In zeitkontinuierlicher 
Darstellung (Kapitel 4) werden ebenfalls parametrierte, ADP-kompatible Sollzustandsverläufe 
präsentiert und in einen ADP-Ansatz integriert. Die Eigenschaften der unterschiedlichen 
Methoden werden analysiert und diskutiert. Zudem werden jeweils Simulationsergebnisse 
präsentiert. 


4 1 Einleitung 


Kapitel 5 liefert formale theoretische Aussagen zur Anregung ADP-basierter Regelungsan- 
sätze. Für die verallgemeinerte Problemstellung eines zeitkontinuierlichen eingangsaffinen 
Nicht-Nullsummen-Differenzialspiels werden hinreichende Bedingungen an den Systemzu- 
stand präsentiert, welche die Erfüllung der Anregungsbedingung und somit Konvergenz der 
betrachteten ADP-Methode garantieren. Illustrative Simulationsergebnisse werden präsentiert 
und diskutiert. 


In Kapitel 6 werden adaptive optimale Solltrajektorienfolgeregler anhand zweier realer An- 
wendungsbeispiele präsentiert. Zunächst wird ein adaptiver Geschwindigkeitsregler, der einem 
vorgegebenen Geschwindigkeitsprofil möglichst kostenoptimal folgen soll, in einem realen 
Fahrzeug angewandt. Dieser wird online, d.h. während sich das Fahrzeug auf der Teststrecke 
befindet, adaptiert. Schließlich wird als zweites reales Anwendungsbeispiel ein adaptiver 
optimaler Trajektorienfolgeregler für ein Ball-auf-Platte-System vorgestellt, der anhand von 
aufgezeichneten Messdaten und ohne Verwendung eines konkreten Systemmodells erlernt 


wird. 


Kapitel 7 fasst schließlich die Haupterkenntnisse der Arbeit zusammen und bewertet diese. 
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Abbildung 1.1: Schematische Übersicht der Hauptbeiträge der vorliegenden Arbeit. 


2 Stand der Wissenschaft und 
Forschungslücke 


In Abschnitt 2.1 dieses Kapitels werden zunächst zentrale Grundgleichungen und Grundbe- 
griffe des ADP eingeführt, um eine Einordnung und Diskussion bestehender Methoden zu 
ermöglichen. Anschließend wird in Abschnitt 2.2 der Stand der Wissenschaft hinsichtlich 
bestehender ADP-basierter Solltrajektorienfolgeregelungsmethoden diskutiert. Weiterhin 
wird in Abschnitt 2.3 beleuchtet, wie die Anregung von Systemzuständen im ADP-Kontext 
in der Literatur bislang erfolgt. Nachdem die Forschungslücken herausgearbeitet wurden, 
werden in Abschnitt 2.4 die wissenschaftlichen Fragestellungen der Arbeit präzisiert und eine 
Übersicht über die Beiträge präsentiert. 


2.1 Einführung der Notation und Grundbegriffe des ADP 


ADP-basierte Regelungsansätze, die mit RL-Methoden und gemessenen Systemtrajektorien 
Optimalregelungsprobleme lösen sollen (vgl. [LV09, S. 39]), stellen ein vergleichsweise junges 
Gebiet der Regelungstechnik dar (vgl. [VLV13, S. 2], [SB18, Abschnitt 1.7], [Wer13]). Zwar 
postulieren Mendel und McLaren [MM70] bereits 1970 erste trial-and-error-basierte Rege- 
lungsansätze, die Ideen des RL aufgreifen, Werbos [Wer77] beschreibt 1977 das Konzept des 
Heuristic Dynamic Programming und Barto et al. [BSA83] gelingen durch Diskretisierung des 
Zustandsraums? simulative Trainingserfolge, dennoch beginnt die eigentliche Entwicklung 
moderner ADP-Ansätze erst mit der Arbeit von Watkins [Wat89] (vgl. [SB18, S. 14]). Eine 
ausführliche Übersicht über die Ursprünge und Grundlagen von RL- und ADP-Methoden ist 
beispielsweise in [LVV12], [SB18, Kapitel 1], [LV09], [WZL09], [LWW* 17, Kapitel 1] und 
[Wer13] gegeben. 


ADP- und RL-basierte Ansätze lassen sich in zwei wesentliche Klassen unterteilen. Neben 
Monte-Carlo-Methoden [SB18, Kapitel 5] spielen insbesondere auf dem sogenannten Temporal- 
Difference-Fehler (TD-Fehler) [Sut88], [SB18, Kapitel 6] beruhende Methoden eine Rolle. Letzte- 
re nutzen einen skalaren Prädiktionsfehler, der auf der Bellman-Gleichung bzw. der Hamilton- 
Jacobi-Bellman-Gleichung basiert, zur Adaption. Monte-Carlo-Methoden betrachten üblicher- 
weise episodische Aufgaben (vgl. [SB18, S. 91]) mit klar definierten Endzuständen, welche 
viele Male wiederholt werden. Hierbei müssen Lernalgorithmen stets das Ende einer Episode 
abwarten, wohingegen Algorithmen, die den TD-Fehler nutzen, den Vorteil aufweisen, mit 


? Dieser unter dem Begriff des tile coding bekannte Mechanismus kann jedoch zahlreiche theoretische und 


praktische Probleme verursachen (vgl. [van12, Abschnitt 2.1.2]). 
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jedem Zeitschritt ein Datentupel zu erhalten und unabhängig eines episodischen Charakters 
Adaptionen vornehmen zu können [LVV12, S. 87 f.], [SB18, Abschnitt 6.2], [VLV13, S. 29 £.]. 
Ein weiteres Argument, Anpassungen auf Basis eines skalaren Vorhersagefehlers, wie dem TD- 
Fehler, vorzunehmen, ist, dass dieses Grundprinzip des RL über den rein technischen Ursprung 
hinausgeht’. Im Folgenden wird der Fokus dieser Arbeit auf die Klasse der TD-Methoden 


gelegt. 


Um den für die vorliegende Arbeit relevanten Stand der Wissenschaft angemessen einordnen 
zu können, werden in den nachfolgenden Abschnitten zunächst im ADP-Kontext wichtige 
Grundgleichungen in zeitdiskreter und zeitkontinuierlicher Darstellung eingeführt. Anschlie- 
Bend wird die Notwendigkeit der Verwendung von Funktionsapproximatoren bei wertkon- 
tinuierlichen Zustands- und Stellgrößenräumen diskutiert. Hierbei dient ein Funktionsap- 
proximator beispielsweise der Beschreibung des funktionalen Zusammenhangs zwischen 
dem Systemzustand und den daraus resultierenden Kosten. Schließlich werden grundlegende 
ADP-Lösungsansätze vorgestellt. 


2.1.1 Zeitdiskrete ADP-Grundgleichungen 
In zeitdiskreter Darstellung werde zunächst ein System 


Lk+1 = f (£k) + g(£k)Uk, (2.1) 
x E€ R”, u € R, f:R" > R”, g:R” > R"?, f(0) = 0, mit dem Zeitindex k und dem 
zu minimierenden* Gütefunktional 


J (Xo, y) Ir (2) + W(t.) Ru a,;)) = oan (Xx, M(Lx)) (2.2) 


betrachtet (vgl. beispielsweise [ATLAK08], [LV09], [LVS12, Kapitel 11.5] und [WZL09]). Hier- 
bei stellt u : R” — RP eine Zustandsrückführung dar. Weiterhin sei q : R” — R eine positiv 
definite Funktion (vgl. [NA05, S. 53]) und R symmetrisch und positiv definit. Zudem sei das 


3? So können Parallelen zu verhaltenspsychologischen Modellen und der Neurobiologie gezogen werden. Bentham 


[Ben89] definiert bereits 1789 das Nützlichkeitsprinzip, nach welchem Handlungen bevorzugt werden, die den 
Gesamtnutzen vergrößern. 1911 spricht Thorndike [Tho11], das Lernverhalten von Tieren untersuchend, vom 
„Law of Effect“. Demnach werden Aktionen, die zu einer Belohnung geführt haben, in künftigen, ähnlichen 
Situationen häufiger wiederholt als mögliche Alternativen. Fortgesetzt wird dieser behavioristische Ansatz 
durch Watsons Grundsatz, Verhalten lasse sich durch Reiz und Reaktion beschreiben [Wat13]. Zudem findet 
laut Rescorla und Wagner [RW72], die auf Pavlovs klassischer Konditionierung [Pav27] aufbauen, gerade 
dann ein Lernprozess statt, wenn sich Prädiktion und tatsächliche Beobachtung unterscheiden. Somit ist ein 
Vorhersagefehler treibende Kraft des Lernens. Weiterhin lassen sich Parallelen zwischen dem TD-Learning und 
Lernvorgängen im menschlichen Gehirn, die auf dem Neurotransmitter Dopamin beruhen, ziehen. So lässt sich 
die Dopaminaktivität im Mittelhirn, ähnlich wie der TD-Fehler, als skalares Prädiktionsfehlersignal interpretieren, 
welches Lernvorgänge auf Neuronenebene beeinflusst [SDM97], [Gli11], [Niv09], [HDB94]. Letztlich lässt sich 
durch ADP-Methoden auch menschliches Verhalten beim Erlernen sensomotorischer Bewegungen nachbilden 
DJ14a], [Bia17]. 

In dieser Arbeit wird die in der optimalen Regelung übliche Konvention der Minimierung von Kosten verwendet, 
während im Bereich des RL eine Maximierung von Belohnungen üblich ist (vgl. [LVV12]). 
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System stabilisierbar auf der kompakten Menge A C R”, die den Ursprung enthält. Durch 
den sogenannten Diskontierungsfaktor y mit 0 < y < 1 lässt sich parametrieren, ob die Ein- 
schrittkosten r(-) zu jedem Zeitschritt gleich gewichtet werden (y = 1), oder inwiefern weiter 
in der Zukunft liegende Kosten schwächer ins Gewicht fallen (y < 1). Weiterhin stellt der 
Diskontierungsfaktor ein Werkzeug dar, um auch bei nicht-verschwindenden Einschrittkosten 
r(-) einen endlichen Wert des Gütefunktionals erhalten zu können (vgl. Abschnitt 2.2). 


Eine wichtige Größe, die eng mit dem Gütefunktional J (æo, p) in (2.2) verknüpft ist, stellt 
die sogenannte Zustands-Nutzenfunktion’, die auch als Value Function bezeichnet wird, dar. 
Die Value Function ist für zulässige®, d.h. stabilisierende, stetige’ Regler u(x;) € C’(X), die 
zudem zu einem endlichen Gütefunktional führen (vgl. [ATLAK08, Definition 2]), durch 


V4 (ae) = Dr (ate, lan) = rear, ar) + WV" (wes), (2.3a) 
k=k 
V¥(0) =0, (2.3b) 


gegeben. Die durch (2.3b) beschriebene Anfangsbedingung folgt aufgrund von f(0) = 0 
und q(a;,) positiv definit. In Übereinstimmung mit Bellmans Optimalitätsprinzip [Bel57a] 
resultiert für 


u (£k) = arg min V“ (az) (2.4) 
H 


aus (2.3a) die Bellman-Gleichung 


Vig) = V” (xx) = a T(r, M(wE)) + WV" (£k41). (2.5) 


Das optimale Regelgesetz ergibt sich zu 
we (xx) = -;R’'g! (£k)V ary V” (£k+1) (2.6) 


(vgl. [LVV12]). Neben der Value Function V# (æ+) spielt die sogenannte Zustands-Aktions- 
Nutzenfunktion®, die in Anlehnung an klassisches Q-Learning [Wat89], [WD92] auch als 
O-Function? bezeichnet wird, eine wichtige Rolle in der ADP-Literatur (vgl. beispielsweise 
[KLM* 14], [LLW* 17], [LLHW16], [ATLAK07], [LVV12]). Die Q-Function ist durch 


Q (£k, Uk) = r(£k, Uk) + N rer (2, MER) 


(2.7) 
= r(2r, Uk) + YQ" (ar+1, U(Ek+1)) 


=r (£k, ur) + WV" (£k41) 


(engl.): state value function. Per Definition gilt V4 (xo) = J (æo, m). 

(engl.): admissible. 

Die Notation C’ (A) kennzeichnet die Klasse der auf der Menge X -fach stetig differenzierbaren Funktionen. 
(engl.): state-action value function. 

Diese Bezeichnung geht auf den Begriff quality function zurück [LVV12]. 


vo sa u 
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definiert. Sie beschreibt die (diskontierten) Langzeitkosten, wenn sich das System im Zustand 
£k befindet, im Zeitschritt k die Stellgröße u, und in allen weiteren Zeitschritten das Re- 
gelgesetz (x) angewandt wird. Mit Q* (£p, up) >= QM’ (£p, Ug) ergibt sich das optimale 
Regelgesetz zu 

H` (xp) = u (xp) = arg min Q* (xp, Uuk) (2.8) 


ur 


[LLW* 17], [BBdE10, S. 18], [LVV12], zudem gilt 
V" (ax) = min Q” (ar, ur). (2.9) 


Ein wesentlicher Unterschied von (2.8) im Vergleich zu (2.6) ist, dass die Eingangsdynamik 
g(x;,) darin nicht präsent ist. Dies ist auf die explizite Abhängigkeit der Q-Function von 
u, zurückzuführen (vgl. [LVS12, S. 502]). Weiterhin hängt (2.8) nicht von £k+1, und somit 
implizit von der Stellgröße ux (vgl. [LVS12, S. 497]), sondern ausschließlich von x, ab. 


2.1.2 Zeitkontinuierliche ADP-Grundgleichungen 


Basierend auf [VL09], [VL10], [LVV 12], [WHL17] und [LVS12, Kapitel 10.1] wird ein eingangs- 
affines System mit der Dynamik 


a(t) = f(x(t)) + g(e(t))udt), (2.10a) 
a(0) = £o, (2.10b) 


x € R”, u € R’, f: R” —R",g:R" > R””P, f und g Lipschitz-stetig auf der kompakten 
Menge X C R”, die den Ursprung enthält, f (0) = 0, (2.10) stabilisierbar auf X, und ein zu 
minimierendes Gütefunktional der Form 


oo 


Kom) | aa)+n@Rule)ar- | ræ, p)ar (21) 
betrachtet!®. Dabei sei q : R” — R abermals eine positiv definite Funktion und u : R” — RP 
eine Zustandsrückführung. Zudem gelte R= RT > 0. Diese Form des Systems (2.10) und 
Gütefunktionals (2.11) ist in der ADP-Literatur weitverbreitet und schließt insbesondere für 
f(x(t)) = Azx(t) und g(a(t)) = B sowie q(x) = <’Qx mit Q > 0 die Problemklasse der 
linear-quadratischen (LQ-)Optimierungsprobleme ein. 


10 Ähnlich wie bei der zuvor in Abschnitt 2.1.1 vorgestellten zeitdiskreten Formulierung lassen sich auch 


die zeitkontinuierlichen Gleichungen auf ein diskontiertes Gütemaß verallgemeinern. Mit ye € R>o wird 
die später in (2.12) definierte Value Function dann zu V#(æ(t)) = [rer drlz,u)dr = 
{as er (ae, u) dr + e77: (Tr-t)VH(æ(t + Tir.)) und die Lyapunov-Gleichung nach (2.13) zu 
0 = r(x, u) + (VeV"(x))* (f(x) + g(x) u(a@)) — yV” (x), V4 (0) = 0 (vgl. [Doy00]). Aus Gründen der 
Ubersichtlichkeit ist in Abschnitt 2.1.2 jedoch der Fall ye = 0 dargestellt. 
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Die Value Function wird für zulässige Regelgesetze’! [BSW97, Definition 1] durch 
V¥ (x) = V” (æ(t)) =i r(x, ps) dr (2.12) 
t 


definiert [VPAKL09], [VL09]. Somit sind durch die Value Function V” (æ(t)) die Gesamtkosten 
gegeben, die entstehen, wenn sich das System zum Zeitpunkt t im Zustand x(t) befindet und 
das Regelgesetz u(x) verwendet wird. 


Die infinitesimale Version von V# (æ) basierend auf (2.12) ist durch die sogenannte Lyapunov- 
Gleichung (vgl. [BSW97], [VL10]) 


0 = r(x, y) + (VeV"(a))" (F(x) +9(x)u(a)), V”(0) = 0, (2.13) 
gegeben'?. Die mit dem Optimierungsproblem assoziierte Hamilton-Funktion'? lautet 
H(z, VaV (a), u(æ)) = r(x, p) + (VaV (æ))" (F(x) + g(æ)u(æ)) (2.14) 
(vgl. [LLW14], [WHL17]). Die optimale Value Function 


V*(a) =: V# (æ) = min V” (a) (2.15) 


erfüllt unter Annahme der Existenz des Minimums die Hamilton-Jacobi-Bellman-Gleichung 
(HJB-Gleichung) 


0 = min H (x, VeV"(«), p(æ)). (2.16) 


Diese entspricht der Lyapunov-Gleichung (2.13) für die optimale Value Function V*(a) und 
das optimale Regelgesetz js*. Zudem gilt nach (2.13) für jedes zulässige Regelgesetz u(x) mit 
der zugehörigen Value Function V” (x) mit V“(0) = 0 


0= H(xz,V,V*(x),u(&)). (2.17) 


Unter der Annahme, dass das Minimum auf der rechten Seite von (2.16) existiert und eindeutig 
ist, ergibt sich das optimale Regelgesetz zu 


p” (x) = arg min Hl, VaV*(a),ula)) = -3R gT (E)Va V a) (218) 
u(x 


(engl.): admissible policies. Diese sind durch (0) = 0, (æ) stetig und stabilisierend auf X und V# (æ) endlich 
definiert. Letzteres wird hier zusätzlich zu einem stabilisierenden Regelgesetz gefordert, da ein stabilisierender 
Regler allein nicht gewährleistet, dass das Kostenintegral endlich bleibt [BSW97, S. 2162]. 

Da im Fall des hier betrachteten unendlichen Optimierungshorizonts keine explizite Abhängigkeit der Value 
Function von der Zeit existiert, gilt avie) = 0. Zudem wird angenommen, dass V (æ) stetig differenzierbar 
ist [VL10], d.h. V” (a) € C!(X). 

Hierbei ist H (-) als Funktion mit beliebigem V (a) und u(æ) zu verstehen und es muss im Allgemeinen nicht 
V(x) = VH (æ) gelten. 
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(vgl. [VL09], [VL10]). Das Einsetzen von (2.18) in (2.16) und die Verwendung von (2.11) liefern 
die HJB-Gleichung bezüglich V„.V* (vgl. [VL10]): 


0 = (wt) + VaV°T fa) - GVaV"w)g(e) Rg" ()V2V"(e), V*R)=0. (219) 


Falls es nun gelingt, V* zu finden, sodass (2.19) erfüllt ist, ergibt sich nach (2.18) das optimale 
Regelgesetz u* (x). 


Eine Alternative zur direkten Verwendung der Lyapunov-Gleichung (2.13) ergibt sich durch 
Umformulierung von (2.12) zu 


V¥ (x) =V*(x(t)) = ie r(x, ps) dr (2.20a) 
t+ Tırı 
= / r(z,a)dr + V” (a(t + Tr)) (2.20b) 


(vgl. [VPAKL09], [VL09]), wobei Tir, > 0 eine beliebige Intervalllänge darstellt. Gleichung 
(2.20b) spielt eine zentrale Rolle für ADP-Methoden, die sich unter dem Begriff des In- 
tegral Reinforcement Learning (IRL) zusammenfassen lassen (vgl. beispielsweise [LVV12], 
[SLW17], [JJ14c], [BJ16a], [VPAKL09], [VL09], [ML14b], [LS17], [LPC15]). Ein IRL-basierter 
Ansatz [BJ16a] wird in Kapitel 4 der vorliegenden Arbeit genutzt, wahrend die Lyapunov- 
Gleichung (2.13) in Kapitel 5 Verwendung findet. 


Das Lösen der HJB-Gleichung (2.16) bzw. (2.19) ist im Allgemeinen schwierig [BSW97], [VL09], 
[VL10], zudem wird die vollständige Kenntnis der Systemdynamik in Form von f(x) und 
g(x) benötigt. Ebenso lässt sich aus (2.20b) nicht unmittelbar auf V* schließen. An dieser 
Stelle setzen ADP-Methoden an, um basierend auf gemessenen Zustands- und Stellgrößentra- 
jektorien sowie dem Kostensignal r(-) Regelgesetze im Sinne des Gütemaßes J nach (2.11) zu 
adaptieren. Die wichtigsten Lösungsansätze hierzu werden in Abschnitt 2.1.4 überblicksartig 
vorgestellt. 


2.1.3 Funktionsapproximatoren 


Die in dieser Arbeit betrachteten regelungstechnischen Problemstellungen weisen wertkon- 
tinuierliche Zustands- und Stellgrößenräume auf. Daher sind klassische RL-Algorithmen 
ungeeignet, die Markov-Entscheidungsprozesse mit endlichen Zustands- und Stellgrößenräu- 
men betrachten [KLM96] und mit tabellarischen Darstellungen der Value Function V bzw. 
Q-Function Q arbeiten (z.B. Q-Learning [Wat89], klassisches Temporal-Difference Learning 
[Sut88], tabellarische Policy-Iteration- [SB18, Kapitel 4.3] oder Value-Iteration-Algorithmen 
[SB18, Kapitel 4.4]). Insbesondere bei wertkontinuierlichen Zustands- und Stellgrößenräu- 
men ist daher die Verwendung von geeigneten Funktionsapproximatoren entscheidend (vgl. 
beispielsweise [BBdE10, Kapitel 3.2], [LVV12, S. 90], [vanı2], [BBT*18], [LP03], [LV09], 
[LLHW16]). Unabhängig davon, ob zeitkontinuierliche oder zeitdiskrete Systeme betrach- 
tet werden, wird eine Value Function V (x) durch A stetig differenzierbare Basisfunktionen 
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p(x) € C! bzw. eine Q-Function Q(x, u) mithilfe h stetig differenzierbarer Basisfunktionen 
p(x, u) € C! approximiert. Zusammenfassen der jeweiligen Basisfunktionen ergibt die Vek- 
toren d(x) € R” bzw. (x, u) € R”. Am Beispiel der Value Function V” (æ) resultiert bei 


Verwendung linearer Funktionsapproximatoren™ 


V” (x) = wox) + e(z) (2.21) 


mit dem Gewichtsvektor w € R” und dem Approximationsfehler e(æ) (vgl. [VL10], [LVV12], 
[VL09], [WHL17])!"". Der Funktionsapproximator einer Value Function oder Q-Function wird 
in der Literatur als Critic bezeichnet, da dieser eine Bewertung eines Regelgesetzes vornimmt 
(vgl. [BSA83], [LVV12]). Demgegenüber wird ein Funktionsapproximator, der ein Regelge- 
setz beschreibt, als Actor bezeichnet. Zahlreiche ADP-Methoden verwenden lediglich einen 
Critic (z.B. [WLL14], [LYWW15], [LLW14], [VL09]), beispielsweise, wenn ein analytischer 
Zusammenhang zwischen der Value Function V oder Q-Function Q und dem (geschätzten) 
optimalen Regelgesetz genutzt werden kann (vgl. (2.6) und (2.18)). Verfahren, die sowohl V 
bzw. Q als auch das Regelgesetz u durch einen eigenen Funktionsapproximator parametrie- 
ren, werden als Actor-Critic-Methoden bezeichnet (z.B. [VL10], [BKJ* 13], [LW14], [KL15])**. 
Zusammenfassend wird durch Funktionsapproximatoren die Verwendung von wertkonti- 
nuierlichen Zustands- und Stellgrößenräumen ermöglicht. Die Suche nach einer optimalen 
Value- bzw. Q-Function und einem optimalen Regelgesetz wird somit auf eine Parametersuche 
übertragen. 


Schließlich sei noch anzumerken, dass die Formulierung des zu minimierenden Gütemaßes J 
über einen unendlichen Zeithorizont eine zentrale Bedeutung für die erfolgreiche Verwendung 
von Funktionsapproximatoren einnimmt, wie die nachfolgende Bemerkung konstatiert. 


Wenngleich grundsätzlich auch nichtlineare Funktionsapproximatoren verwendet werden können, so sind 
im Allgemeinen lineare Funktionsapproximatoren, d.h. eine linear gewichtete Summation ggf. nichtlinearer 
Basisfunktionen auf theoretischer Ebene besser verstanden und zudem aus praktischer Sicht einfach handhabbar 
(vgl. [van12], [BT96], [BBT* 18], [BBdE10, Kapitel 3.3.1]). 

Unter der Annahme, dass die Value Function V# (a) auf einer kompakten Menge X stetig differenzierbar ist, 
lässt sich Ve € X der Approximationsfehler e(®) bei geeignet gewählten Basisfunktionen (æ) : R” — R” 
mit steigender Anzahl h an Basisfunktionen beliebig verringern. Für polynomielle Basisfunktionen basiert dies 
beispielsweise auf dem Satz von Weierstraß [Wei85], jedoch existieren auch Verallgemeinerungen (vgl. [HSW90], 
[BSW97], [AKL05], [VL10]). Da eine sehr große Anzahl an Basisfunktionen und somit zu lernenden Gewichten 
vermieden werden soll, sei jedoch anzumerken, dass ohne Vorwissen über die Systemdynamik eine praktikable 
Wahl an Basisfunktionen bei nichtlinearen Systemen grundsätzlich eine bislang ungelöste Herausforderung 
darstellt (vgl. [BKJ+ 13, Remark 5]). 

In der Literatur wird häufig von einer Actor-Critic-Struktur gesprochen, selbst, wenn kein expliziter, zusätzlicher 
Funktionsapproximator zur Beschreibung der Stellgröße verwendet wird (vgl. [LVV12]). Dies ist darin begründet, 
dass der Regler ju, der bei allen ADP-Methoden vorhanden ist, in Anlehnung an RL-Methoden als Actor bezeichnet 
werden kann. Zur Abgrenzung wird in der vorliegenden Arbeit der Oberbegriff verallgemeinerte Critic-Struktur 
definiert, um sowohl Methoden mit zusätzlichem, gesondertem Actor-Funktionsapproximator, als auch solche, die 
direkt aus dem Critic-Gewicht das Regelgesetz ps bestimmen, zu bezeichnen. Demgegenüber wird explizit dann von 
Actor-Critic-Methoden gesprochen, wenn neben dem Critic-Approximator ein zusätzlicher Funktionsapproximator 
für das Regelgesetz ps verwendet wird. 
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Bemerkung 2.1 


Für den Entwurf von ADP-Methoden mithilfe von Funktionsapproximatoren ist das Auf- 
tauchen derselben Value Function V"(-) bzw. Q-Function Q” (-) auf beiden Seiten der 


zentralen Gleichungen (2.3a), (2.7) und (2.20b) fundamental. Für diese Eigenschaft ist 
nach [LVV12, S. 80] maßgeblich die Verwendung eines unendlichen Optimierungshori- 
zontes in (2.2) bzw. (2.11) verantwortlich. 


2.1.4 ADP-Lösungsansätze 


An dieser Stelle lässt sich der Begriff des ADP weiter schärfen. Im Folgenden stellt ADP in 
Anlehnung an [LWW 17] und [WHL17] eine Kombination aus dynamischer Programmierung, 
der Verwendung von Funktionsapproximatoren und einer verallgemeinerten Critic-Struktur!” 
dar, um mithilfe von Systemtrajektorien Optimalregelungsprobleme zu lösen (vgl. [LV09, 
S. 39]). 


Hierfür werden in diesem Abschnitt grundlegende ADP-Mechanismen eingeführt, die im 
weiteren Verlauf der vorliegenden Arbeit benötigt werden. Neben der Anpassung des Regelge- 
setzes u(x), entweder direkt aus der Value Function V bzw. der Q-Function Q oder über die 
Anpassung von Actor-Gewichten (vgl. Abschnitt 2.1.3), nimmt insbesondere die Adaption der 
Critic-Gewichte w eine zentrale Rolle ein. Wird bei Anwendung eines Regelgesetzes u die ak- 
tuelle Schätzung des Critic-Gewichts angepasst, um die mit diesem Regelgesetz verbundenen 
Langzeitkosten in Form von V” bzw. Q” zu beschreiben, so wird dies als Policy-Evaluation- 
Schritt bezeichnet. Eine Anpassung des Regelgesetzes ys basierend auf der aktuellen Schätzung 
von V” bzw. Q“, mit dem Ziel, ein bezüglich des Gütefunktionals J verbessertes Regelgesetz 
zu erhalten, wird hingegen Policy-Improvement-Schritt genannt [LVV12]. Je nachdem, ob diese 
Schritte alternierend oder parallel durchgeführt und ob sie vollständig oder nur teilweise 
ausgeführt werden, lassen sich ADP-Methoden klassifizieren. Die drei für die vorliegende 
Arbeit wesentlichen Klassen sind Policy-Iteration-Algorithmen, Value-Iteration-Algorithmen 
und Actor-Critic-Methoden. Diese werden in den Abschnitten 2.1.4.1-2.1.4.3 thematisiert. Alle 
drei Klassen sind der sehr allgemeinen Definition der sogenannten Generalized-Policy-Iteration- 
Methoden zuzuordnen, die, unabhängig der Details und Granularität, auf einer irgendwie 
gearteten Interaktion zwischen Policy-Evaluation- und Policy-Improvement-Prozessen beru- 
hen (vgl. [SB18, Abschnitt 4.6]). Nach der Betrachtung dieser drei zentralen ADP-Klassen wird 
in Abschnitt 2.1.4.4 schließlich der Unterschied zwischen sogenannten On-Policy- und Off- 
Policy-ADP-Ansätzen charakterisiert. Abbildung 2.1 gibt eine Übersicht über die nachfolgend 
präsentierten ADP-Klassen und deren wichtigste Eigenschaften. 


17 Dies schließt sowohl Actor-Critic-Methoden als auch Ansätze ohne expliziten, zusätzlichen Actor- 


Funktionsapproximator ein (vgl. Abschnitt 2.1.3). Ansätze, die versuchen, ohne einen Critic-Approximator 
das Regelgesetz anzupassen (siehe beispielsweise [RPS07], [Mun06]), stehen hingegen nicht im Fokus der vorlie- 
genden Arbeit. 
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ADP-Klassen 
Policy Iteration (Abschnitt 2.1.4.1) 
Value Iteration (Abschnitt 2.1.4.2) 
Actor-Critic-Methoden (Abschnitt 2.1.4.3) 


| 


Eigenschaften 


on-policy oder off-policy (Abschnitt 2.1.4.4) 
zeitdiskret oder zeitkontinuierlich 
Approximation von V oder Q 


Abbildung 2.1: Klassifikation von ADP-Methoden. 


2.1.4.1 Policy Iteration 


Policy-Iteration-Algorithmen (PI-Algorithmen) basieren darauf, Regelgesetze auszuwerten, 
indem deren zugehörige Value Functions bzw. Q-Functions ermittelt werden. Diese Value- 
bzw. Q-Functions werden dann dazu verwendet, um neue, bezüglich des Gütefunktionals J 
verbesserte, Regelgesetze zu finden. Dieser Prozess findet iterativ statt [BBdE10, Kapitel 2.4], 
[SB18, Kapitel 4.3]. PI-Algorithmen sind somit dadurch gekennzeichnet, dass der Policy- 
Evaluation-Schritt vollständig durchgeführt wird, also stets die Value Function V” (bzw. 
Q-Function Q#) zu einem Regelgesetz u bestimmt wird, bevor das Regelgesetz im Policy- 
Improvement-Schritt angepasst wird. Am Beispiel einer zeitdiskreten Problemstellung, bei 
der eine Value Function V" approximiert wird, basiert diese iterative Prozedur auf (2.3a) und 
(2.6). Der prinzipielle Ablauf ist in Algorithmus 2.1 skizziert (vgl. [LVV12], [LV09]). Diese 
Iteration kann entweder fortgeführt oder durch ein Abbruchkriterium, beispielsweise bei 
Konvergenz von V|}, beendet werden. Die praktische Auswertung der Schritte 1 und 2 hängt 
letztlich von der konkreten Problemstellung und den gewählten Lösungsansätzen ab. Für 
den Policy-Evaluation-Schritt kann beispielsweise ein Gradientenabstieg, ein Batch-Least- 
Squares- oder ein rekursiver Least-Squares-Ansatz genutzt werden [LVV12]. Zur Lösung 
des Policy-Improvement-Schrittes kann z.B. direkt die analytische Lösung [LVV12] oder ein 
Gradientenabstiegsverfahren [LW14] verwendet werden. 


Policy-Iteration-Algorithmen existieren neben der in Algorithmus 2.1 gezeigten zeitdiskreten 
Formulierung, die eine Value Function V lernt (vgl. [LVV12], [LV09], [Hey16]), in zahlreichen 
Varianten. Beispielsweise kann basierend auf (2.7) und (2.8) für eine zeitdiskrete Systemdar- 
stellung eine Policy-Iteration definiert werden, die eine Q-Function lernt [LP03], [ATLAK07], 
[BYB94], [LV09]. Erste Ansätze dezentraler und verteilter Q-Learning-Methoden, die ebenfalls 
auf einer PI basieren, wurden von Görges [Gör19] präsentiert. PI-Algorithmen zur Lösung 
zeitkontinuierlicher Problemstellungen, die eine Value Function V lernen, müssen entweder 
im Policy-Evaluation-Schritt die durch (2.13) gegebene Lyapunov-Gleichung lösen [BSW97] 
oder nutzen die in (2.20b) gegebene IRL-Darstellung [VPAKL09], [LVV12, S. 97]. Analog zu 
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Algorithmus 2.1 Zeitdiskrete Policy Iteration 


1: Initialisiere Iterationsindex | := 0, zulässiges initiales Regelgesetz u (x) 
Schritt 1 (Policy Evaluation): 
2: Finde V+! sodass gilt: 


vr (a) =r (2x, pl (=) + vi (£k+1). (2.22) 


Schritt 2 (Policy Improvement): 
3: Aktualisiere das Regelgesetz 


+1] ( 


pl (aq) = arg min (rien, lan) + V4 wer). (2.23) 


HC) 
4: Setze l := l + 1. Gehe zu Schritt 1. 


IRL-Methoden [VPAKL09] kann eine PI auch so formuliert werden, dass eine Q-Function einer 
zeitkontinuierlichen Problemstellung iterativ gelernt wird [LPC12]. 


Die Forderung eines initial zulässigen Regelgesetzes wu (-) bei PI-Algorithmen kann entwe- 
der bei vorhandenem Teilwissen über die Systemdynamik mittels robuster Regelungsansätze 
erfüllt werden [ML14a, Remark 11], [KLNSK15, Remark 9], [YDZY20] oder vor Anwendung 
des PI-Algorithmus überprüft werden (vgl. [LW14, Theorem 3.3]). Wenngleich die Forderung 
nach einem initial zulässigen Regelgesetz eine gewisse Einschränkung"? von PI-Algorithmen 
darstellt, so resultiert für nicht-diskontierte Problemstellungen (d.h. für y = 1) nach jedem 
Policy-Improvement-Schritt erneut ein zulässiges Regelgesetz [BSW97, Lemma 9], [LW14]. 
Auch die Verwendung einer durch einen Funktionsapproximator nicht exakt beschriebenen 
Value Function V führt in diesem Fall zu einem zulässigen Regelgesetz, wenn die Funktions- 
approximation hinreichend genau erfolgt [BSW97, Theorem 26]. Insbesondere ist somit eine 
exakte Lösung des Policy-Evaluation-Schrittes nicht notwendig, um Stabilität des geschlosse- 
nen Regelkreises zu erreichen. 


2.1.4.2 Value Iteration 


Value-Iteration-Algorithmen (VI-Algorithmen) suchen basierend auf der Bellman-Gleichung 
oder der HJB-Gleichung iterativ eine optimale Value Function V* bzw- Q-Function Q* sowie 
den optimalen Regler uı*, führen dabei jedoch keine vollständige Policy Evaluation durch 
[SB18, Kapitel 4.4], [BBdE10, Kapitel 2.3]. Eine zeitdiskrete Value Iteration, die eine Value 
Function V lernt, ist in Algorithmus 2.2 gegeben (vgl. [LV09]). Die Schritte Policy Evaluation 


18 Hinsichtlich realer Anwendungen erscheint diese Forderung jedoch wenig einschrankend, da ohnehin die 


Beschränktheit der Systemzustände während der Datenakquise gewährleistet sein muss und ein Betrieb eines 
Realsystems mit einem instabilen Regelgesetz zu vermeiden ist. 
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und Policy Improvement lassen sich zu einer Gleichung kombinieren (vgl. [LVV12, (30)], [Ber17, 
(5)]), sodass 


VN (ay) = min (r (arg, lan) + 7V "(we 41) er 
uC) 


resultiert. Im Unterschied zur PI muss das initiale Regelgesetz hierbei nicht zulässig (und damit 
insbesondere nicht stabilisierend) sein und im Gegensatz zu (2.22) wird auf der rechten Seite 
von (2.25) die vorherige Schätzung Vl! (-) der Value Function verwendet. Das bedeutet, dass 
im Policy-Evaluation-Schritt nicht die zum aktuellen Regelgesetz p”! (xp) gehörende Value 
Function ermittelt wird, sondern lediglich ein einzelner Update-Schritt in Richtung dieser 
Value Function!’ vorgenommen wird. Auch hier existieren Formulierungen, die für zeitdiskrete 
Probleme eine Q-Function [LVV12, S. 95] oder in zeitkontinuierlichen IRL-Ansätzen eine 
Value Function [LVV12, S. 97] lernen. 


VI-Algorithmen weisen den Vorteil auf, prinzipiell nicht mit einem zulässigen Regelgesetz 
initialisiert werden zu müssen. Zudem erfordert eine einzelne Iteration einer VI, abhängig 
von der konkreten Implementierung, ggf. einen geringeren Berechnungsaufwand als eine 
Iteration der PI [KLM96, S. 250]?°. Jedoch kann bei VI-basierten Verfahren, im Gegensatz zu PI- 
Algorithmen, im Allgemeinen keine Aussage über die Stabilität der Regler „'*!! während der 


Algorithmus 2.2 Zeitdiskrete Value Iteration 


1: Initialisiere Iterationsindex l := 0, initiales Regelgesetz u (æ), V! > 0 
Schritt 1 (Policy Evaluation): 
2: Finde VIH1], sodass gilt: 


Vela.) =r (2x. pli (2) +V (aK 41). (2.25) 


Schritt 2 (Policy Improvement): 
3: Aktualisiere das Regelgesetz 


pl (æ) = G (rar, p(zp)) + VE (+1): (2.26) 
ne 


4: Setze l := l + 1. Gehe zu Schritt 1. 


Diese Aussage wird insbesondere dadurch gestiitzt, dass die Bellman-Gleichung eine Fixpunktgleichung ist 
und die durch V+! (a) = r(æp, w(ax)) + yV”! (æp+1) definierte Iteration mit fixiertem Regelgesetz 
p(x) eine Kontraktion darstellt (vgl. [LV09], [Ber20b]). Für ein zulässiges u(-) konvergiert diese Iteration für 
i — oo gegen die Lösung des Policy-Evaluation-Schrittes der zeitdiskreten Policy Iteration (2.22) [LV09]. Somit 
kann (2.25) als einzelner Schritt der für i definierten Iteration mit (-) = pl! (-) interpretiert werden. Dies deckt 
sich auch mit der Definition der PI und VI für endliche Zustands- und Stellgrößenräume in [SB18, Kapitel 4.3] 
bzw. [SB18, Kapitel 4.4]. 

Bei der Anwendung einer PI oder VI auf klassische Markov-Entscheidungsprozesse mit endlichen Zustands- 
und Aktionsräumen trifft die Aussage zum Komplexitätsunterschied der Berechnung einer einzelnen Iteration 
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z.B. zu (vgl. [KLM96, S. 251]). Bei Verwendung linearer Funktionsapproximatoren und einer blockweisen Least- 
Squares-Schätzung des Policy-Evaluation-Schrittes kann die Komplexität einer einzelnen Value Iteration ebenfalls 
reduziert werden, falls die auftretende Pseudoinverse vorab berechnet werden kann (vgl. [BJ16b, Remark 4.1]). 
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einzelnen Iterationen l getroffen werden, weshalb erst das finale (konvergierte) Regelgesetz für 
| — oo zur Regelung verwendet werden sollte [LW14]. Zudem konvergieren PI-Algorithmen 
meist in weniger Iterationen /, da die Policy Evaluation eine komplette Bewertung des aktuellen 
Regelgesetzes vornimmt [LVV12], [Hey16]. 


2.1.4.3 Actor-Critic-Methoden 


Actor-Critic-Methoden (vgl. [KT03], [GBLB12], [SB18, Kapitel 13]) adaptieren die Parameter 
von Actor- und Critic-Funktionsapproximatoren (vgl. Abschnitt 2.1.3). Diese Actor-Critic- 
Methoden sind häufig durch PI- oder VI-Algorithmen motiviert und erlauben eine unterschied- 
liche Granularität der Policy-Evaluation- und Policy-Improvement-Prozesse. Die Adaption des 
approximierten optimalen Regelgesetzes ys findet, ähnlich wie bei einer PI oder VI, üblicherwei- 
se basierend auf einer geschätzten Value Function oder Q-Function statt. Der Hauptunterschied 
hierbei ist jedoch, dass bei Actor-Critic-Methoden zumeist gradientenbasierte Methoden ver- 
wendet werden, um das Regelgesetz in die durch den Critic bestärkte Richtung anzupassen, 
anstatt direkt eine vollständige Minimierung basierend auf der aktuellen Schätzung des Critics 
durchzuführen (vgl. (2.23) und (2.26)). 


Beispielsweise präsentieren Vamvoudakis und Lewis [VL10] eine zeitkontinuierliche Actor- 
Critic-Methode, bei welcher der Critic basierend auf dem quadratischen Fehler der Hamilton- 
funktion (vgl. (2.14) mit Verwendung eines Funktionsapproximators) mithilfe eines normierten 
Gradientenabstiegs und der Actor mit einem modifizierten normierten Gradientenabstieg 
angepasst wird. Da die Methode von Vamvoudakis und Lewis [VL10] Kenntnis der Ein- 
gangsdynamik g(a) erfordert, erweitern Bhasin et al. [BKJ* 13], die den Critic mithilfe einer 
zeitkontinuierlichen Least-Squares-Formulierung und den Actor mit einem Gradientenabstieg 
mit anschließender Projektion adaptieren, die Actor-Critic-Struktur um ein zusätzliches neu- 
ronales Netz, das die Systemdynamik identifiziert. Silver et al. [SLH*14] präsentieren eine 
zeitdiskrete Actor-Critic-Formulierung, bei der die Critic-Parameter einer approximierten 
Q-Function basierend auf dem Gradienten des quadratischen TD-Fehlers (vgl. (2.7) unter 
Verwendung eines Funktionsapproximators) adaptiert werden. Die Actor-Gewichte 6, die 
das Regelgesetz jz approximieren, werden, beispielsweise mithilfe eines Gradientenabstiegs 
oder anderer gradientenbasierter Optimierungsverfahren, in Richtung des Gradienten des 
Gütemaßes J bezüglich des Actor-Gewichtes 0 angepasst. Da dieser Mechanismus später in 
der Anwendung in Abschnitt 6.1 zum Einsatz kommt, ist eine kurze Einführung in Anhang D.2 
gegeben. Darüber hinaus existieren unzählige weitere Actor-Critic-Ansätze. Beispielhaft sei 
die Arbeit von Li et al. [LGM20] zu nennen, in der ein einzelnes neuronales Netz genutzt wird, 
um sowohl Gewichte der Value Function?! als auch Gewichte eines optimiertes Regelgesetzes 
zu erlernen. Dieser Ansatz kann somit als Verschmelzung der Actor-Critic-Struktur zu einem 
kombinierten neuronalen Netz interpretiert werden. 


21 Konkret ermöglicht die zusätzliche Nutzung der sogenannten Advantage Function (vgl. [WSH* 16]), aus der 


geschätzten Value Function die Q-Function zu schätzen. 
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2.1.4.4 On-Policy- und Off-Policy-Ansätze 


Ein wichtiges Klassifikationsmerkmal von RL- bzw. ADP-Algorithmen ist, ob diese On-Policy- 
Algorithmen oder Off-Policy-Algorithmen darstellen. Dabei sind On-Policy-Methoden dadurch 
charakterisiert, dass die approximierte Value Function V bzw. Q-Function Q die (ggf. dis- 
kontierten) Langzeitkosten des während des Adaptionsvorgangs tatsächlich verwendeten 
Regelgesetzes repräsentieren. Im Gegensatz dazu lernen Off-Policy-Ansätze eine approxi- 
mierte Value Function V bzw. Q-Function Q, die zu einer sogenannten Target Policy gehört. 
Diese Target Policy weicht im Allgemeinen von der Behavior Policy ab, die auf das System 
angewandt wird, um Messdaten zu generieren (vgl. [KLJ17], [SLH* 14], [LCL*19]). Konkret 
bedeutet das auch, dass das optimale Regelgesetz bei Off-Policy-Ansätzen nicht ausgeführt 
werden muss, um dieses zu erlernen [van12, S. 17]. Beispiele für On-Policy-Verfahren sind 
On-Policy-TD-Learning”” [SB18, Kapitel 6.4] oder die On-Policy-IRL-Methoden von Vrabie 
et al. [(VPAKL09] oder Modares und Lewis [ML14a]. Die Klasse der Off-Policy-Algorithmen 
schließt beispielsweise klassisches Q-Learning [Wat89], [WD92], Off-Policy-IRL-Algorithmen 
[JJ12], DJ14c], [SLW17] den LSPI-Algorithmus [LP03] und Off-Policy-Actor-Critic-Methoden 
[SLH*14] ein. 


Wenn es gelingt, ADP-Methoden off-policy zu entwerfen, bringt dies zwei wesentliche Vorteile 
mit sich. Zum einen können aufgrund der Off-Policy-Charakteristik Daten beim Training 
wiederverwendet werden, was die Dateneffizienz signifikant erhöht und essenziell für Anwen- 
dungen, beispielsweise in der Robotik, ist [GHLL17]. Diese gezielte Mehrfachverwendung von 
Datentupeln ist im Bereich des RL unter dem Begriff des Experience Replay bekannt, welches 
maßgeblich für den Erfolg von RL mit tiefen neuronalen Netzen verantwortlich ist [MKS* 15], 
[MKS* 13]. Im Gegensatz dazu müssen bei On-Policy-Algorithmen nach jeder Adaption des 
Regelgesetzes alle bisherigen Trainingsdaten verworfen und neu aufgezeichnet werden. Dies 
stellt eine datenineffiziente und unpraktikable Einschränkung von On-Policy-Methoden dar 
[KIP* 18]. Zum anderen führen On-Policy-Algorithmen bei der Verwendung von Explorati- 
onsrauschen, das zur Systemanregung benötigt wird (vgl. Kapitel 5), zu einem Offset in der 
Schätzung der Critic-Gewichte und somit auch dem approximierten Regelgesetz [LYD17, Theo- 
rem 1], [LCL*19, Lemma 3], [YDZY20, Lemma 1], [KLJ17, Remark 2]. Diesen Offset weisen 
Off-Policy-Verfahren hingegen nicht auf [LYD17, Theorem 3], [LCL*+ 19, Theorem 3], [YDZY20, 
Theorem 3], [KLJ17, Theorem 3]. Insbesondere tragen Off-Policy-Ansätze folglich dazu bei, 
das sogenannte Exploration-Exploitation-Dilemma [SB18, S. 3] in den Griff zu bekommen, da 
die Behavior Policy eine umfassende Exploration ermöglicht, während dennoch eine Adaption 
in Richtung der optimalen Target Policy stattfinden kann (vgl. [LCL*+ 19], [LHP* 16]). 


2.2 ADP-basierte Solltrajektorienfolgeregler 


Zahlreiche zeitdiskrete (z.B. [LLW* 17], [WZL16], [WLLS17], [WHQ20]) und zeitkontinu- 
ierliche (z.B. [MCLS02], [KWD16], [Vam17], [Wan20]) ADP-Ansätze betrachten lediglich 


22 Auch unter dem Namen SARSA bekannt. 
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die Regelung des Systemzustands auf eine konstante Ruhelage x = 0° und keine Regelung 
auf Solltrajektorienverläufe x, ;, bzw. &,(t). Da jedoch die Solltrajektorie die Kosten r und 
somit auch die Value Function V (vgl. (2.3a) und (2.20)) bzw. Q-Function Q (vgl. (2.7)) beein- 
flusst, sind diese Regler, die für eine konstante Ruhelage trainiert wurden, nicht für andere 
Sollzustände geeignet und somit insbesondere nicht auf den Trajektorienfolgeregelungsfall 
übertragbar. 


Des Weiteren weisen Ansätze, die keine explizite funktionale Abhängigkeit der Value Function 
V oder Q-Function Q von der Referenztrajektorie verwenden, sondern die Form V” (a) bzw. 
Q(x, u) aufweisen, keine Übertragbarkeit auf eine andere als die während des Trainings 
verwendete (einzelne, fest vorgegebene) Trajektorie auf. Als Beispiel sei die Arbeit von Yu et al. 
[YSH*17] zu nennen, bei welcher der Sollzustand kein Argument der Q-Function darstellt, die 
Kosten r aber dennoch von einem zeitveränderlichen aktuellen Sollzustand abhängen. Yu et al. 
verwenden in ihrem Actor-Critic-Ansatz während des in zahlreichen Episoden wiederholten 
Trainingsvorgangs immer wieder dieselbe Solltrajektorie, weshalb diese mittels der Kosten r 
implizit Einfluss auf die gelernte Q-Function Q” (x, u) hat. Jedoch trainieren sie ihren Regler 
damit auf genau diese während des Trainings verwendete Referenztrajektorie, da sowohl Q(-) 
als auch das gelernte Regelgesetz u implizit von dieser Referenz abhängen, aber kein explizites 
Verständnis über die Abhängigkeit von einer während des Trainingsvorgangs nicht gesehenen 
Referenztrajektorie aufweisen (vgl. auch (3.4)). Die Verwendung einer anderen Solltrajektorie 
erfordert somit einen erneuten Trainingsvorgang (vgl. [YSH* 17, Abschnitt 5]). 


Im Folgenden werden in den Abschnitten 2.2.1-2.2.3 unterschiedliche Klassen ADP-basierter 
Solltrajektorienfolgeregelungsansätze aus der Literatur vorgestellt und in Abschnitt 2.2.4 
eine kurze Übersicht der Anwendung von ADP-Methoden auf reale regelungstechnische 
Anwendungen gegeben, um die erste zentrale Forschungslücke herauszuarbeiten. 


2.2.1 ADP-Ansätze unter Nutzung der dynamischen Inversion 


Zahlreiche ADP-basierte Methoden nutzen einen auf einer Zustandslinearisierung (vgl. bei- 
spielsweise [Kha02, Kapitel 13]) basierenden Vorsteuerungsentwurf, der sich in der Literatur 
unter dem Begriff einer dynamischen Inversion findet [EBHS07]. Diese Konzepte bestimmen 
üblicherweise a priori und unter vollständiger Kenntnis oder nach vorheriger Identifikation 
der Systemdynamik einen inversionsbasierten Vorsteuerterm und nutzen erst dann ADP- 
Verfahren, um lediglich den Zustandsrückführungsterm des Reglers zu adaptieren. Somit wird 
genau genommen kein datenbasierter ADP-Solltrajektorienfolgeregler gelernt, da der Vorsteu- 
erterm modellbasiert berechnet wird. Tabelle 2.1 gibt eine Übersicht über diese Methoden. Die 
Spalte globale Diskontierung y gibt hierbei Aufschluss darüber, ob ein Diskontierungsfaktor ~y 


23 Wenngleich diese Methoden prinzipiell auch für einen konstanten Sollzustand ungleich null trainiert werden 


könnten, so ist dieser Sollzustand zur Laufzeit nicht veränderbar und auch kein expliziter Parameter des gelern- 
ten Regelgesetzes yz. Vielmehr wird während des Trainings implizit der Einfluss des einmalig fest gewählten 
Sollzustands auf V bzw. Q gelernt. Dies kann letztlich als Festwertregelung (vgl. [Lun20a, S. 362]) mit der 
zusätzlichen wesentlichen Einschränkung, dass die Führungsgröße nicht verändert werden kann, d.h. ohne 
äußere Eingriffsmöglichkeit, interpretiert werden. 
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im Gütemaß verwendet wird (vgl. (2.2)), um die Value- bzw. Q-Function endlich zu halten, 
oder welche anderen Mechanismen hierfür genutzt werden. 


Zhang et al. [ZWLO8] stellen einen zeitdiskreten Ansatz vor, der eine Value Iteration nutzt. 
Huang und Liu [HL14] präsentieren ebenfalls eine zeitdiskrete Methode. Neben einem neuro- 
nalen Netz zur Approximation der Systemdynamik verwenden sie einen Actor-Critic-Ansatz 
und passen sowohl die Critic-Gewichte als auch den Funktionsapproximator zur Beschreibung 
des Zustandsrückführungsterms mithilfe eines Gradientenabstiegs an. Auch die zeitkontinuier- 
liche ADP-Trajektorienfolgeregelungsmethode von Kamalapurkar et al. [KDBD15] verwendet 
eine derartige dynamische Inversion sowie ein Actor-Critic-Verfahren. 


Ein Nachteil all dieser Methoden ist jedoch die im Allgemeinen nicht erfüllte Annahme, dass 
die Eingangsmatrix g(x) bzw. B invertierbar”* sein muss. Zudem muss die gesamte System- 
dynamik entweder bekannt sein oder identifiziert werden (vgl. [KLM* 14], [KLL15]). Mu et al. 
[MSWS17] fordern bei ihrem Ansatz für zeitkontinuierliche, eingangsaffine Systeme ebenfalls, 
dass die durch f(x) und g(x) beschriebene Systemdynamik bekannt ist, ihr Ansatz erlaubt 
jedoch immerhin eine beschränkte und zustandsabhängige Unsicherheit in der Systemdyna- 
mik. Dierks und Jagannathan [DJ09] nutzen in ihrem gradientenbasierten Actor-Critic-Ansatz 
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[ZWL08] ja d eingangsafin V VI nein“ ja 
[HL14] ja d eingangsafin WV AC? nein“ ja 
[KDBD15] ja k eingangsaffın V AC? nein? ja 
[MSWS17] jaf k eingangsaffin V PI nein“ ja 
[DJ09] teilw. d eingangsafin V AC? nein“ ja 


è Actor-Critic mit (ggf. normiertem) Gradientenabstieg. 

> Actor-Critic, Critic mit zeitkontinuierlichem Least-Squares-Update mit 
Vergessensfaktor. 

© Gütemaß bestraft Abweichung der Stellgröße vom Vorsteuerungsanteil. 

d Jedoch Unsicherheit im Modell erlaubt. 


Tabelle 2.1: Übersicht über ADP-Trajektorienfolgeregelungsmethoden, die auf dem Konzept der dynamischen Inver- 
sion basieren. 


24 Im Sinne der Existenz einer Matrix g(a), sodass g(2)9 (x) = I gilt (vgl. beispielsweise [DJ09], [DJ10)). 
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neben Funktionsapproximatoren zur Schätzung des Critics und des Zustandsrückführungs- 
terms noch einen dritten Funktionsapproximator?°, um auch den Vorsteuerterm zu adaptieren. 
Dennoch muss auch bei diesem Verfahren g(a) bekannt und invertierbar sein. Abschließend 
sei noch angemerkt, dass bei all diesen Konzepten, die den Ansatz der Zustandslinearisierung 
nutzen, im Gütefunktional J(-) die quadratische Abweichung der Stellgröße vom Vorsteuer- 
term und somit nur die transiente Stellgröße und nicht die eigentliche Stellenergie bestraft 
wird. Ein geschlossener optimierungsbasierter Ansatz liegt somit nicht vor. 


2.2.2 Globale Solltrajektorienvorgabe durch eine Exosystemdynamik 
ohne externe Eingriffsmöglichkeit 


Eine andere in der ADP-Literatur weitverbreitete Annahme ist, dass die Referenztrajekto- 
rie global einer (häufig unbekannten) Exosystemdynamik folgt [ML13], [ML14a], [ML14b], 
[ZZXS17], [KL15], [LLHW16], [KLM* 14], [LYD17], [Vam16], [KLNSK15], [QZL13], [GJ16], 
[GJ15], [BA18], [KLL15]. Basierend auf dieser Annahme wird der Systemzustand um einen 
Exosystemzustand erweitert, sodass auf bestehende ADP-Mechanismen zurückgegriffen wer- 
den kann. Eine Übersicht über ADP-Trajektorienfolgeregelungsmethoden, die eine solche 
globale Vorgabe der Referenztrajektorie annehmen, ist in Tabelle 2.2 gegeben. Diese Ansätze 
werden im Folgenden diskutiert. 


Modares und Lewis [ML13] stellen für zeitkontinuierliche linear-quadratische optimale Tra- 
jektorienfolgeregelungsprobleme einen Policy-Iteration-Algorithmus vor, der jedoch die voll- 
ständige Kenntnis der erweiterten Systemdynamik benötigt. Darüber hinaus existieren sowohl 
zeitkontinuierliche [ML14a], [ML14b], [ZZXS17] als auch zeitdiskrete [KL15] Ansätze, welche 
die Value Function V approximieren und zwar keine Kenntnis über die interne Systemdy- 
namik f(x) bzw. A benötigen, die Eingangmatrix g(x) bzw. B jedoch bekannt sein muss. 
Diese Einschränkung einer bekannten Eingangsmatrix weisen die Ansätze von Luo et al. 
[LLHW 16] (zeitdiskrete, nichtlineare Systemdynamik), Kiumarsi et al. [KLM*14] und Li 
et al. [LYD17] (jeweils zeitdiskrete, lineare Systemdynamik), sowie Vamvoudakis [Vam16] 
(zeitkontinuierliche, lineare Systemdynamik), die jeweils eine Q-Function lernen, nicht auf. Ki- 
umarsi et al. [KLNSK15] betrachten eine lineare, zeitdiskrete Systemdynamik und lernen eine 
ADP-basierte optimale Ausgangsrückführung, indem der Systemzustand aus einer endlichen 
Anzahl vergangener Werte der Stellgrößen, Ausgangsgrößen und Sollzustände rekonstruiert 
wird und anschließend alternativ entweder eine Policy Iteration oder eine Value Iteration 
verwendet wird. Qin et al. [QZL13] stellen für zeitkontinuierliche linear-quadratische Aus- 
gangsfolgeregelungsprobleme eine IRL-basierte Policy Iteration vor, die keine Kenntnis der 
Werte der Systemmatrizen A und B benötigt. Hierbei wird jedoch einschränkend angenom- 
men, dass die Anzahl der Exosystemzustände identisch zur Anzahl der Ausgangsgrößen des 
zu regelnden Systems ist. Gao und Jiang [GJ16], [GJ15] verwenden eine auf dem Prinzip des 
IRL basierende Policy Iteration, um linear-quadratische Trajektorienfolgeregelungsprobleme 
mit zeitkontinuierlicher Systemdynamik und unbekannten Systemmatrizen A und B zu lösen. 
Bernhard und Adamy [BA18] betrachten Trajektorienfolgeregelungsprobleme mit linearer, 


235 Dieser schätzt letztlich implizit die interne Dynamik f (-). 
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[ML13] ja k linear V PI ja nein 
[ML14a] teilw. k linear V PI ja nein 
[ML14b] teilw. d eingangsafın V AC? ja nein 
[ZZXS17] teilw. k eingangsafin V PI ja nein 
[KL15] teilw. d eingangsafın V AC* ja nein 
[LLHW16] nein d nichtlinear Q PI ja nein 
[KLM* 14] nein d linear Q PI ja nein 
[LYD17] nein d linear Q PI ja nein 
[Vam16] nein k linear Q AC? nein? nein 
[KLNSK15] nein d linear V PIVI ja nein 
[OZL13] nein k linear V PI nein?” nein 
16], 15 nein inear nein“ nein 
[GJ16], [GJ15] i k li V PI in“ i 
[BA18] nein k linear V PI nein? nein 
[KLL15] teilw. d eingangsafin V PIVI ja nein 


è Actor-Critic mit (ggf. normiertem) Gradientenabstieg. 

> Exosystem muss stabil sein. 

© Gütemaß bestraft Abweichung der Stellgröße vom Vorsteuerungsanteil. 
d Unendliche Kosten erlaubt. 


Tabelle 2.2: Übersicht über ADP-Trajektorienfolgeregelungsmethoden, die eine globale Vorgabe der Referenztrajek- 
torie annehmen. 


unbekannter, zeitkontinuierlicher Systemdynamik und unendlichen Kosten”. Kiumarsi et al. 
[KLL15] behandeln zeitdiskrete, eingangsaffine, zeitveränderliche Systeme. Hierbei werden 
für unterschiedliche Systemdynamiken unterschiedliche Value Functions gelernt, anschlie- 
Bend wird mittels sogenannter adaptive self-organizing maps automatisiert zwischen diesen 
Repräsentationen gewechselt. 


2% Hierbei wird die Definition der überholenden Optimalität (vgl. [Ber20a, Definition 2.3], (engl.): overtaking 


optimality) verwendet. 
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Alle im vorliegenden Abschnitt diskutierten Arbeiten weisen jedoch einen entscheidenden 
Nachteil auf: die Annahme, dass der Exosystemzustand ausgehend von dessen Initialzustand 
propagiert wird und zur Laufzeit nicht durch eine externe Eingriffsmöglichkeit verändert 
werden kann”. Die Referenztrajektorie ist daher global vorgegeben und nicht von außen be- 
einflussbar”®. Daher können beispielsweise Nutzereingaben, Straßenverläufe oder gewünschte 
Systemzustandsverläufe, die aus einer übergeordneten Ebene resultieren, nicht berücksichtigt 
werden. Als illustratives Beispiel, um die damit verbundene Problematik zu veranschaulichen, 
werde ein Fahrzeug betrachtet, das einem beliebigen, realen Straßenverlauf folgen soll. Um mit 
diesem Fahrzeug beispielsweise von Karlsruhe nach Kaiserslautern zu fahren, müsste unter 
Verwendung der in diesem Abschnitt diskutierten Methoden der gesamte Straßenverlauf auf 
dieser Strecke durch die Exosystemdynamik und dessen Anfangszustand beschrieben sein. 
Während dies bereits eine nicht handhabbare Annahme darstellt, müsste zudem für jede ande- 
re Fahrtstrecke ein geeignetes Exosystem gefunden und der Regler erneut trainiert werden. 
Damit sind mit den bestehenden Methoden insbesondere auch keine beliebigen Solltrajek- 
torien als Eingabe der Regelungsmethoden möglich. Diese Eigenschaft ist in Abbildung 2.2 
veranschaulicht und stellt erhebliche Einschränkungen für die allgemeine Anwendbarkeit 
dieser adaptiven optimalen Trajektorienfolgeregelungen dar. 
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Abbildung 2.2: Schematische Darstellung von Literaturansätzen, die annehmen, die Referenztrajektorie folge global 
einer Exosystemdynamik. Eine flexible Beeinflussbarkeit des Solltrajektorienverlaufs von außen 
fehlt hierbei. 


2.2.3 Stationäre Sollzustandsvorgabe 


Eine Alternative zur Annahme, die Referenztrajektorie werde global durch eine Exosystem- 
dynamik erzeugt, stellt die Erweiterung des Systemzustands um den aktuellen Sollzustand 
oder die Abweichung vom aktuellen Sollzustand [HSSH17], [PRH19], [PKRH20], [WXL* 14], 
bzw. die Erweiterung um einen projizierten aktuellen Sollzustand [NKJS04] dar. Shi et al. 
[SSW18] führen diese Idee fort, indem der Systemzustand nicht nur um den Sollzustand im 


27 Andernfalls würde die Markov-Eigenschaft verletzt und die Trainingsdaten wären nicht mit der Bellman- 


Gleichung (2.5) bzw. HJB-Gleichung (2.16) verträglich (vgl. [van12], Abschnitt 3.1 und Abschnitt 4.1). 
Dies kann als Servoregelung (vgl. [Lun20a, S. 398], [AM89, S. 89]) ohne äußere Eingriffsmöglichkeit interpretiert 
werden, bei der das Exosystem die Führungsgröße generiert. 


28 
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aktuellen Zeitschritt, sondern auch um den Sollzustand des direkt nachfolgenden Zeitschritts 
ergänzt wird. Zwar lassen die ADP-basierten Methoden, welche den aktuellen (und ggf. nach- 
folgenden) Sollzustand in der Value Function bzw. Q-Function explizit berücksichtigen, die 
Vorgabe beliebiger stationärer Sollzustände zu (vgl. Abbildung 2.3), jedoch wird der zeitliche 
Verlauf der Solltrajektorie hierbei nicht (oder im Fall von Shi et al. [SSW18] nur sehr ein- 
geschränkt) berücksichtigt. Vielmehr repräsentiert die Value Function V” (a,x, £, p) nur die 
unter dem Regelgesetz u entstehenden Langzeitkosten, wenn sich das System im Zustand x, 
befindet und auf den stationären Endwert x, ;, eingeregelt werden soll, was jedoch nicht dem 
nach (2.11) zu minimierenden Gütefunktional entspricht. Der Regler, der eine Festwertrege- 
lung (vgl. [Lun20a, S. 362]) darstellt, reagiert damit lediglich auf Abweichungen zum aktuellen 
Sollzustand, berücksichtigt jedoch nicht den zukünftigen Verlauf der Referenztrajektorie. Dies 
kann zu einem zeitlichen Versatz zwischen dem Istzustand und dem Sollzustand führen. 


Systemzustand 


adaptiver, optimaler Trajektorienfolgeregler 


722 - ` ADP-basierter Stellgröße 
stationärer | Regelungsansatz 
1 
1 


Sollzustand 


Anregungssignal 


Abbildung 2.3: Schematische Darstellung ADP-basierter Optimalregelungskonzepte aus der Literatur, welche die 
Vorgabe eines stationären Sollzustands verwenden. 


2.2.4 ADP in realen regelungstechnischen Anwendungen 


Nach diesen Einblicken in unterschiedliche Klassen ADP-basierter Solltrajektorienfolgeregler 
wird im Folgenden ein kurzer Überblick hinsichtlich bisheriger realer ADP-Anwendungen 
gegeben. Obwohl zahlreiche Publikationen zu ADP-basiertem Reglerentwurf und zu ADP- 
basierten Zustandsfolgereglern existieren, betrachten die meisten dieser Veröffentlichungen 
lediglich Simulationsergebnisse, jedoch keine reale Anwendung der Methoden im Experiment. 
Insofern ist die empirische Basis dünn und vernachlässigt praktische Herausforderungen, z.B. 
aufgrund von Mess- und Stellgliedungenauigkeiten. Als prominente Beispiele seien [LV09], 
[WLMZ18], [JJ14c], [BKJ* 13], [ML14a], [LLHW16] und [KLM*14] genannt. Gleiches gilt 
für das in Abschnitt 6.1 betrachtete Anwendungsbeispiel ADP- oder RL-basierter Geschwin- 
digkeitsregler für Fahrzeuge. Auch hier existieren zumeist nur Simulationsergebnisse (siehe 
[PRH19], [BK18], [NCH08], [DCd11] und [KBJ*21, Table IIJ) oder Laborergebnisse anhand 
eines Fahrsimulators [PT12]. Huang et al. [HXH*19] arbeiten zwar mit einem Realfahrzeug, 
trainieren ihren Geschwindigkeitsregler jedoch basierend auf einem stark vereinfachten, 
datenbasierten Modell der Longitudinaldynamik. Aus diesem Modell werden Stichproben 
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gezogen, anhand derer ein Längsregler trainiert wird. Zudem findet keine Berücksichtigung 
des zukünftigen Solltrajektorienverlaufs statt, der Adaptionsprozess erfolgt nicht anhand von 
Realdaten während der Fahrt und dynamische Vorgänge werden ignoriert, d.h. interne, nicht 
messbare Systemgrößen werden nicht rekonstruiert (vgl. [PRH19]). 


Auch die Betrachtung anderer Anwendungsbeispiele liefert ein ähnliches Bild. Li et al. [LGM20] 
demonstrieren beispielsweise mithilfe von Simulationsergebnissen, wie ADP genutzt werden 
kann, um das Energiemanagement in hybridelektrischen Fahrzeugen zu optimieren. Li und 
Görges [LG19], [LG20] stellen Ansätze für modellfreie, ADP-basierte Abstandsregeltempo- 
maten vor und präsentieren Simulationsergebnisse. Shi et al. [SSW18] untersuchen einen 
RL-basierten Regler für ein Unterwassergefährt, wobei eine stationäre Sollzustandsvorgabe 
(vgl. Abschnitt 2.2.3) verwendet wird. Die dortigen Ergebnisse beschränken sich auf Simu- 
lationen, eine reale Anwendung findet nicht statt. Hwangbo et al. [HSSH17] stellen einen 
RL-basierten Regler vor, der neuronale Netze trainiert und die Position eines Quadrocopters 
regelt. Dem Regler wird dabei lediglich eine Sollposition vorgegeben (Festwertregelung), 
an welcher sich der Quadrocopter stabilisieren soll. Eine Berücksichtigung des Verlaufs der 
Solltrajektorie findet nicht statt. Auch die von Ng et al. [NKJS04] präsentierte RL-basierte 
Regelung eines Modellhelikopters verwendet als Vorgabe nur die aktuelle Abweichung von 
einer Wunschposition, anstatt den Sollverlauf zu übergeben. Sowohl Hwangbo et al. [HSSH17] 
als auch Ng et al. [NKJS04] nutzen zwar ihre durch einen RL-basierten Ansatz trainierten 
Regler nach dem Trainingsvorgang an realen Systemen, jedoch basiert das Erlernen des 
Regelgesetzes jeweils auf Reinforcement Learning anhand von Daten, die aus einem Simulati- 
onsmodell erzeugt wurden und nicht direkt mittels Messdaten. Somit muss ein geeignetes 
Systemmodell für das Training vorliegen, also zunächst modelliert oder identifiziert werden. 
Es bleibt ungeklärt, inwiefern eine Adaption des Reglers direkt basierend auf realen Messdaten 
möglich ist. Die in Kapitel 1 erwähnten Arbeiten [KIP* 18], [ABC* 20] erfordern eine enorme 
Menge an Real- bzw. Simulationsdaten für einen erfolgreichen Trainingsvorgang. Zudem wird 
in [KIP*18] im Fall eines erfolgreichen Greifversuchs des Roboters eine binäre Belohnung 
ausgeschüttet und in [ABC*+20] nur die Abweichung von einer stationären Soll-Orientierung 
eines in einer Roboterhand befindlichen Würfels bestraft und kein Solltrajektorienverlauf 
explizit vorgegeben. 


Insbesondere eine reale Anwendung eines modellfreien ADP-Solltrajektorienreglers, der nicht 
nur den aktuellen Sollzustand, sondern einen flexiblen Sollzustandsverlauf berücksichtigt, 
und dabei strukturelles Vorwissen über das zugrunde liegende Problem ausnutzt, ist somit 
bis zum jetzigen Zeitpunkt in der Literatur nicht vorhanden. Aufgrund von Unterschieden 
zwischen Simulationen und Realanwendungen (vgl. [DAMH19], [CHL19], [Bro92]) ist aus 
einer anwendungsorientierten regelungstechnischen Perspektive eine Validierung der direkten 
Anwendung der ADP-Methoden auf reale Systeme jedoch unverzichtbar. 


2.2.5 Fazit 


Bislang existierende ADP-Solltrajektorienfolgeregelungsansätze lassen sind in drei verschie- 
dene Gruppen klassifizieren. Inversionsbasierte Methoden nach Abschnitt 2.2.1 erfordern 
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Kenntnis über die Systemdynamik und bestrafen nicht die eigentliche Stellenergie. Daher 
werden sie nachfolgend nicht weiter für den ADP-Kontext betrachtet. Ansätze, die annehmen, 
dass die Referenztrajektorie einer globalen Exosystemdynamik folgt (vgl. Abschnitt 2.2.2), 
weisen bislang keine äußere Beeinflussungsmöglichkeit dieses Solltrajektorienverlaufs auf 
(vgl. Abbildung 2.2). Die Vorgabe eines stationären Endwertes nach Abschnitt 2.2.3 erlaubt 
zwar eine Sollwertvorgabe von außen (vgl. Abbildung 2.3), der weitere zeitliche Verlauf der 
Referenztrajektorie wird hierbei jedoch nicht berücksichtigt. Abschnitt 2.2.4 unterstreicht zu- 
dem, dass bislang nur wenige reale Anwendungen ADP-basierter Regelungsansätze betrachtet 
wurden und diese insbesondere keine flexible Solltrajektorienvorgabe erlauben. 


Somit kann konstatiert werden, dass ein generalisierender Ansatz (vgl. Abbildung 2.4), der 
aus der externen Vorgabe einer Solltrajektorie eine für die Verwendung durch ADP-Ansätze 
kompatible? Approximation generiert, die zugleich Informationen über den zeitlichen Verlauf 
der Referenztrajektorie beinhaltet, bis dato nicht existiert. 
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Abbildung 2.4: Schematische Darstellung eines generalisierenden Ansatzes, der die externe Vorgabe eines Soll- 
trajektorienverlaufs erlaubt und diese Referenztrajektorie auf eine mit dem ADP-Formalismus 
kompatible Weise approximiert. Eine solche Methode, die vielfältige, flexible Solltrajektorien in den 
ADP-Mechanismus integrieren kann, existiert bislang nicht. 


2.3 Anregung ADP-basierter Regelungsansätze 


Für Konvergenzaussagen von Systemidentifikationsmethoden sowie adaptiven und ADP- 
basierten Algorithmen wird stets die Annahme gefordert, dass das betrachtete System aus- 
reichend angeregt ist. Am Beispiel des ADP lässt sich anschaulich plausibilisieren, weshalb 
eine geeignete Anregung des Systems erforderlich ist. So lassen sich beispielsweise bei einem 
System, das sich dauerhaft in einer stabilen Ruhelage x = 0 befindet, keine umfassenden 
Informationen über dessen dynamisches Verhalten gewinnen. Sämtliche Regelgesetze mit 
(0) = 0 erscheinen dann aus Sicht eines zu minimierenden Gütefunktionals gleichermaßen 


29 Eine ADP-kompatible Solltrajektoriendarstellung erlaubt die Integration eines Sollzustandsverlaufs in ADP- 


basierte Regelungsansätze. Eine genaue Definition erfolgt durch Definition 3.1 für den zeitdiskreten Fall und 
durch Definition 4.1 für den zeitkontinuierlichen Fall. 


26 2 Stand der Wissenschaft und Forschungslücke 


optimal, da der Fall a # O nicht beurteilt werden kann. Erst durch die Betrachtung unter- 
schiedlicher Zustands- und Stellgrößenkombinationen, d.h. durch eine geeignete Exploration 
(vgl. [SB18, S. 3]) können Informationen darüber gewonnen werden, welche Regelgesetze 
hinsichtlich des Gütefunktionals zu bevorzugen sind. 


Eine Formalisierung derartiger Anregungsannahmen wird unter dem Begriff der sogenannten 
Persistent-Excitation-Bedingung?” zusammengefasst. Dieser Begriff entstand in den 1960er- 
Jahren zunächst im Kontext der Systemidentifikation [AB66] (vgl. [NA05, S. 238], [BU16]), 
spielt jedoch auch bei adaptiven Regelungsansätzen [NA05, S. 239], [IS96] und ADP-Ansätzen 
[VLV13, S. 62] eine zentrale Rolle bei der Betrachtung von Konvergenzeigenschaften. 


Konkret wird für zeitkontinuierliche Signale ø (t) € R” die Einhaltung einer PE-Bedingung 
t+T 
ewernarzar, 27 
t 


a, T € Ryo, Vt > to, gefordert (vgl. [NA05, Definition 6.2], [PSA17, Definition 4]). Falls 
das Signal ø (t) diese PE-Bedingung erfüllt, so wird es im Folgenden als PE-Signal bezeich- 
net. Die Relevanz der PE-Bedingung (2.27) offenbart sich anhand der häufig auftretenden 
Differenzialgleichung 

dw/(t) 

Fa 
wobei w(t) € R” den Fehler eines zu schätzenden Parameters w € R” darstellt. Für die 
gleichmäßige asymptotische Stabilität der Ruhelage von (2.28) ist es notwendig und hinrei- 
chend, dass ø (t) ein PE-Signal ist [NA05, S. 246]. Anschaulich interpretiert genügt aufgrund 
von Rang(o(t)oT’(t)) < 1 die in ø (t) zu einem einzelnen Zeitpunkt t enthaltene Information 
nicht, um die h Unbekannten des Parametervektors w zu bestimmen. Die PE-Bedingung (2.27) 
fordert daher, dass das Integral der positiv semidefiniten Matrix o(r)o’(T) über ein endliches 
Intervall [t,t + T], Vt > to, positiv definit ist (vgl. [NA05, S. 247]). Eine zweite anschauliche 
Interpretation ergibt sich wie folgt: Nach [NA05, S. 247] ist das Integral des Betrags der 
Projektion eines PE-Signals ø (t) entlang jedes beliebigen Einheitsvektors des R” über ein 
endliches Intervall [t,t + T], Vt > to, ungleich null. Dies bedeutet, dass in diesem endlichen 
Intervall das Signal ø (t) eine Basis des R” durchlaufen muss (vgl. [Kar19, S. 42]). 


= -o(t)o"(t)w(t), (2.28) 


Die Erfüllung der PE-Bedingung für den Regressor ø (t) ist für Konvergenzaussagen bei der 
zeitkontinuierlichen Parameteradaption [Ngu18, S. 132], [JALG18], [Pra17], der adaptiven 
Regelung [NA05, Abschnitt 6.5.2], [BS86], [AG08], [LK98], [NMH*15] und bei ADP-Ansätzen 
[VL10], [VL11], [Vam17], JKBD15], [ML14b], [VVLo9b], [TCTH19], [BKJ* 13], [LLW14], 
[LYWW15], [ZCZL11], [SWL19, Assumption 6.4], [ZZXS17], [ZDJ14] zentral. 


Das zeitdiskrete Pendant der durch (2.27) formulierten PE-Bedingung ist durch 


5 ajo} =al>O0 (2.29) 
i=k 


30 In seltenen Fällen ist auch die deutschsprachige Bezeichnung fortwährende Erregung [BU16] zu finden. 
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mit Ta € N, Ta > 0, gegeben [Bit84], [Mar84], [GM86]. Diese Bedingung findet sich unter 
anderem bei rekursiven zeitdiskreten ADP-Algorithmen [ATLAK07], [LLHW16], [BYB94], 
[ZQJL14], aber auch bei zeitkontinuierlichen ADP-Ansätzen, die mithilfe von IRL-Methoden 
gelöst werden [BJ16a], [FC16]. 


Zu erwähnen seien an dieser Stelle außerdem Arbeiten, die zur PE-Bedingung äquivalente 
[PSA17] und alternative [CJ10], [KKD14], [KWD13] Anregungsbedingungen vorstellen. Die 
unter dem Begriff des concurrent learning aufzufindenden Methoden der adaptiven Regelung 
[CJ10] bzw. ADP-Literatur [KKD14], [KWD13] fordern hierbei die Erfüllung einer Rang- 
bedingung an zuvor abgespeicherte Daten. Zwar sind diese Rangbedingungen ggf. in der 
Anwendung nachträglich komfortabel überprüfbar, jedoch bleibt auch bei diesen Ansätzen 
ungeklärt, wie Systeme angeregt werden sollten, um geeignete Daten zu erzeugen. Somit wird 
auch hier das Vorhandensein geeignet angeregter Daten a priori vorausgesetzt (vgl. [CJ10, 
Condition 1], [KKD14, Assumption 1]). 


Da in Kapitel 5 eine Betrachtung der zeitkontinuierlichen PE-Bedingung nach (2.27) statt- 
findet, konzentriert sich die nachfolgende Übersicht auf diesen Fall. Für die Erfüllung der 
PE-Bedingung spielt dabei insbesondere der Frequenzgehalt von o eine wesentliche Rolle 
(vgl. [SB89, Abschnitt 4.3], [LK98], [NA87]). So ist beispielsweise ein skalares Signal o, € R 
genau dann ein PE-Signal, wenn dessen Leistungsdichtespektrum mindestens eine Frequenzli- 
nie aufweist [NA05, S. 253], [Kar19, Lemma 4.2]. Für den Fallo € R” sind Aussagen für den 
Zusammenhang zwischen dem Frequenzspektrum von o und der Erfüllung der PE-Bedingung 
in [BS83, Lemma 3.4] gegeben. Bei der Analyse von Signalen ist zudem die Frage, unter wel- 
chen mathematischen Operationen die PE-Eigenschaft eines Signals erhalten bleibt, relevant. 
Die bestehende Literatur zu Systemidentifikationsmethoden und adaptiver Regelung offenbart 
hierbei, dass für lineare algebraische und dynamische Transformationen von Signalen theo- 
retische Aussagen hinsichtlich der PE-Eigenschaft existieren (vgl. [NA05, S. 249 ff.], [BS86]). 
Ein Beispiel für eine solche algebraische Signaltransformation ist, dass bei linearen Abbil- 
dungen eines Signals durch Matrizen M € R™*"™? mit Maximalrang und mı < ma dessen 
PE-Eigenschaft erhalten bleibt [NA05, Lemma 6.1]. Als Beispiel für eine dynamische Transfor- 
mation lässt sich nennen, dass der Systemzustand eines linearen, Eingangs-Ausgangs-stabilen, 
steuerbaren dynamischen Systems n-ter Ordnung mit skalarer Eingangsgröße genau dann PE 
ist, wenn das Leistungsdichtespektrum des skalaren Eingangssignals mindestens n Frequenz- 
linien aufweist [BS86], [NA05, S. 255 ff.]. Aussagen für mehrdimensionale Eingangsgrößen 
sind in [MB90] und [GM86] zu finden. 


Bei ADP-basierten Ansätzen treten jedoch selbst bei scheinbar einfachen Problemstellungen 

Nichtlinearitäten in den Basisfunktionen @(a(t)) der linearen Funktionsapproximatoren (vgl. 

Abschnitt 2.1.3) auf. Ein Beispiel ist durch LQ-Optimierungsprobleme gegeben (vgl. [PLB15, 

S. 303]). Da diese Nichtlinearitäten den Frequenzgehalt der betrachteten Signale verändern 

können, und sich aus dem Frequenzgehalt des Systemzustands x(t) somit keine direkten Rück- 

schlüsse auf eh Te pegia der Basisfunktion @(a(t)) (vgl. (2.21)) bzw. deren zeitliche 
z(t))3 


Ableitungen ee 1 ziehen lassen, sind existierende theoretische Erkenntnisse nicht ohne 


31 Gerade für das Signal dee) ist jedoch die Erfüllung der PE-Bedingung von entscheidender Bedeutung für die 


Konvergenz des Critic-Gewichts w (vgl. [VL10, Theorem 1]). 
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Weiteres auf den ADP-Kontext übertragbar. Abhängig von den konkreten Nichtlinearitäten 
können beispielweise zusätzliche Frequenzen auftreten und sich positiv auf die Erfüllung der 
PE-Eigenschaft auswirken oder Frequenzen können sich gegenseitig aufheben und somit die 
PE-Bedingung verletzen (vgl. [LK98], [LK99]). Eine sorgfältige Analyse des Einflusses der 
vorhandenen Nichtlinearitäten auf die PE-Eigenschaft ist daher insbesondere im ADP-Kontext 
unumgänglich. 


Unter den wenigen in der Literatur verfügbaren Ansätzen, welche die PE-Bedingung im 
Zusammenhang mit Nichtlinearitäten analysieren, sind die Arbeiten von Lin und Kanellako- 
poulos [LK98] (System in strenger Ausgangs-Rückkopplungsform), [LK99] (System in strenger 
parametrischer Rückkoplungsform) sowie von Adetola und Guay [AG06] (zustandslineari- 
sierbare Systeme mit linearer Parameterabhängigkeit), [AG08] (nichtlineare Systeme mit 
linearer Parameterabhängigkeit) zu nennen, die jedoch dem Bereich der adaptiven Regelung 
zuzuordnen sind. Allgemeine Untersuchungen und theoretische Analysen hinsichtlich einer 
geeigneten Anregung im ADP-Kontext existieren bislang nicht [JZLH19], [JKBD15], [KLL15], 
[BKJ* 13]. 


Obwohl eine geeignete Anregung insbesondere auch bei ADP-Methoden stets erforderlich ist, 
wird in vorhandenen Publikationen üblicherweise die Erfüllung einer auf die jeweils konkrete 
Formulierung zugeschnittenen PE-Bedingung als gegeben vorausgesetzt. Eine methodische 
Analyse findet bislang nicht statt. In der Hoffnung, die zur Konvergenz der jeweiligen Methode 
erforderliche PE-Bedingung zu erfüllen, sind in der Literatur unterschiedliche heuristische 
Strategien zu finden. So wird häufig Explorationsrauschen in Form von Zufallssignalen auf die 
Stellgröße addiert, wie beispielsweise Gaußsches weißes Rauschen oder, seltener, auf einem 
Intervall gleichverteiltes Rauschen. Häufig ist dieses Anregungssignal jedoch nicht näher spe- 
zifiziert und die Erfüllung der Anregungsbedingung wird nicht weiter untersucht. Eine ähnlich 
verbreitete Methode ist die Addition eines Anregungssignals, das aus einer Summation und 
Multiplikation von Sinus- und Kosinusfunktionen resultiert”, auf die Stellgröße. Eine Untersu- 
chung, wie diese Sinus- und Kosinussignale zu wählen sind, sodass eine geeignete Anregung 
erreicht wird, findet jedoch bislang nicht statt. Schließlich schlagen manche Autorinnen und 
Autoren als dritte Strategie vor, das System für verschiedene Zustände auszuwerten, beispiels- 
weise durch eine wiederholte Neuinitialisierung des Anfangszustands. Auch hier findet keine 
theoretische Untersuchung statt und es bleibt ungeklärt, wie eine solche Neuinitialisierung 
konkret erfolgen müsste, um die Erfüllung der PE-Bedingung zu gewährleisten. Beispiele 
für ADP-Ansätze, die diese drei Heuristiken zur Anregung verwenden, sind Tabelle 2.3 zu 
entnehmen. 


Bei der Betrachtung der Anregungssignale für ADP-Methoden ist schließlich noch hervor- 
zuheben, dass mögliche anwendungsspezifische Anforderungen bislang, insbesondere bei 
Verwendung weißen Rauschens und anderer Zufallssignale zur Anregung, nicht berücksichtigt 
werden. Beispielsweise weisen reale physikalische und biologische Systeme üblicherweise 
Tiefpassverhalten auf [EP10], hochfrequente Stellsignale werden also gedämpft und sind somit 


32 Da sich Produkte von Sinus- und Kosinusfunktionen stets durch Summen aus Sinus- und Kosinusfunktionen 


darstellen lassen, wird im Folgenden nur noch von Summationen gesprochen. 
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additives Zufallssignal auf Stellgröße: 


[ATLAK07], [BK18], [DJ09], [DJ10], [DJ11], [FY16], UKBD15], [KL15], [KLM* 14], 
[KLNSK15], [LCL* 19], [LLW14], [LP03], [LPC12], [LVV12], [OZLY19], [Vam17], 
[VMKL17], [WLMZ18], [WLZZ16], [WY18], [ZCL13], [ZDJ15], [ZQJL14], [ZZWZ16] 


additiver Summenterm aus Sinus- und Kosinusfunktionen auf Stellgröße: 


[BA18], [BKJ* 13], [FC16], [GJ16], DJ14b], [JJ14c], [JJ12], DKBD15], [KDBD15], 
[KLJ17], [KLL15], [LYD17], [LYWW15], [LNY*+15], [MRLP16], [ML14b], [OZLY19], 
[TCTH19], [VMKL17], [VMH16], [Vam16], [Vam15], [WLL14], [YHL13], [YLLL16] 


wiederholte Neuinitialisierung des Systemzustands: 


[DLL* 19], [LLW14], [VL09], [VPAKLO09], [WL12] 


Tabelle 2.3: Anregungsheuristiken verschiedener ADP-Ansätze. 


potenziell ungeeignet zur Anregung. Zudem ist zu beachten, dass die Verwendung ungeeigne- 
ten Explorationsrauschens eine erhöhte mechanische Belastung technischer Systeme mit sich 
bringt und zur schnelleren Abnutzung oder sogar Beschädigung des Systems führen kann (vgl. 
[KBP13], [dIKTB18]). So beansprucht die Verwendung weißen Rauschens durch ruckartige 
Stelleingriffe potenziell die Aktuatorik. Schließlich ist eine solch ruckartige Anregung für 
Adaptionsverfahren, die sich online zur Laufzeit anpassen sollen, meist unerwünscht und bei- 
spielsweise auch in einer möglichen zukünftigen Anwendung im Mensch-Maschine-Kontext 
weder komfortabel noch zur Anregung unbekannter Reaktionen des Menschen geeignet”. 


Zusammenfassend kann konstatiert werden, dass zahlreiche Publikationen zu ADP-basierten 
Verfahren die Erfüllung geeigneter Anregungsbedingungen voraussetzen, bis dato jedoch 
noch keine verifizierbare Methode existiert, welche die Einhaltung der PE-Bedingung im 
nichtlinearen Kontext sicherstellt (vgl. [JZLH19], [JKBD15], [KLL15], [BKJ* 13]). Dies ist ins- 
besondere auf den Mangel an allgemeinen theoretischen Aussagen zur PE-Bedingung unter 
nichtlinearen Signaltransformationen, die im Bereich des ADP aufgrund nichtlinearer Güte- 
funktionale selbst bei LQ-Optimierungsproblemen auftreten, zurückzuführen. Im Hinblick auf 
eine spätere Übertragbarkeit auf reale Anwendungsbeispiele sind zudem problemspezifische 


33 Im Kontext der Mensch-Maschine-Interaktion, bei der sich Mensch und Maschine gegenseitig bei einer Rege- 


lungsaufgabe unterstützen, kann der Mensch aufbauend auf Arbeiten zur Modellierung des sensomotorischen 
Systems [Sco04], [Tod04], [JJ14a] als Optimalregler modelliert werden. Im Zusammenspiel mit einer ebenfalls 
optimierungstheoretisch formulierten Automation ergibt sich ein Differenzialspiel (vgl. auch Definition 5.1) 
[FFH17], [NC15]. Da üblicherweise sowohl das Regelgesetz als auch das Gütefunktional des menschlichen 
Handlungspartners unbekannt ist, muss entweder das Regelgesetz (vgl. beispielsweise [KNFH20]) oder das Güte- 
funktional identifiziert werden (vgl. [KIR* 17], [IKFH17], [IBKH20], [RIK* 17]), oder die Automation adaptiert 
sich mithilfe eines ADP-basierten Ansatzes aus der Interaktion mit dem Menschen. Da jedoch das menschliche 
neuromuskuläre System Tiefpasscharakteristik aufweist [KAVt 14], sind hochdynamische Anregungssignale 
hierbei ungeeignet, um adäquate Informationen zur Adaption der Automation zu erhalten. Eine sinnvoll gewählte 
Anregung ist also insbesondere auch für zukünftige adaptive Mensch-Maschine-Konzepte erforderlich. 
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Anforderungen zu beachten, wie beispielsweise Freiheitsgrade beim Anregungsdesign zur 
Berücksichtigung von Tiefpasseigenschaften. 


2.4 Wissenschaftliche Fragestellungen und Beiträge der 
Arbeit 


Ausgehend von den Forschungslücken, die in den vorigen Abschnitten aufgezeigt wurden, 
werden im Folgenden zwei konkrete Fragestellungen abgeleitet, zu denen die vorliegende 
Arbeit Beiträge liefert. Außerdem wird eine Übersicht über diese wissenschaftlichen Beiträge 


gegeben. 


2.4.1 ADP-kompatible, flexible Solltrajektoriendarstellung 


ADP-basierte Regelungsansätze sind üblicherweise auf der Bellman-Gleichung bzw. Hamilton- 
Jacobi-Bellman-Gleichung begründet und für einen unendlichen Optimierungshorizont formu- 
liert. Eine wesentliche Herausforderung beim Entwurf von ADP-Solltrajektorienfolgereglern 
ist eine mit der Bellman- bzw. HJB-Gleichung kompatible Repräsentation der Solltrajektorie. 
Bislang existieren aber weder eine allgemeine theoretische Definition ADP-kompatibler Soll- 
trajektoriendarstellungen noch geeignete Ansätze ADP-basierter Solltrajektorienfolgeregler, 
welche die Einbeziehung einer von außen vorgebbaren Darstellung variabler Solltrajektorien- 
verläufe ermöglichen. Daraus ergibt sich die folgende Fragestellung: 


Forschungsfrage 1: 


Wie können Solltrajektorienverläufe dargestellt werden, um in einen modellfreien ADP- 
Formalismus integrierbar zu sein, der einen approximierten optimalen Solltrajektorien- 


folgeregler mithilfe von Messdaten eines dynamischen Systems und ohne Verwendung 


eines Systemmodells erlernt? 


Beitrag 1: 

In dieser Arbeit wird erstmalig der Begriff der ADP-kompatiblen Solltrajektoriendarstellung 
eingeführt und formal definiert. Weiterhin werden neuartige und mit dem ADP-Formalismus 
kompatible Darstellungsformen flexibler, von außen vorgebbarer Referenztrajektorien für 
Sollzustände präsentiert sowie deren Eigenschaften analysiert. Insbesondere beinhaltet die 
vorliegende Arbeit: 
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« Theoretische Beiträge in zeitdiskreter Darstellung (Kapitel 3): 


— Eine neuartige, mit dem ADP-Formalismus kompatible, flexible, parametrierte Dar- 
stellungsform der Referenztrajektorie, die insbesondere die Beschreibung des Soll- 
trajektorienverlaufs in einer lokalen Umgebung des aktuellen Zeitpunkts erlaubt. 
Des Weiteren werden Existenz und Eindeutigkeit des optimalen Regelgesetzes 
für den LQ-Solltrajektorienfolgeregelungsfall analysiert. Zudem wird ein neues 
Stabilitätskriterium präsentiert. Schließlich wird ein Vorgehen vorgestellt, das 
es ermöglicht, ADP-basierte Regler, die diese parametrierte Referenztrajektorie 
nutzen, anhand von Messdaten zu trainieren. 


— Die im ADP-Kontext erstmalige direkte Verwendung der Sollzustände auf einem 
endlichen, gleitenden Vorausschauhorizont. Hierbei wird für den LQ-Fall die 
Existenz und Eindeutigkeit sowie die exakte Form der optimalen Lösung analysiert. 
Letzteres ist essenziell, um effiziente Funktionsapproximatoren mit einer möglichst 
geringen Anzahl zu schätzender Gewichte definieren und mithilfe von Messdaten 
trainieren zu können. Außerdem wird die Konvergenz der verwendeten ADP- 
Methode für den Solltrajektorienfolgeregelungsfall bewiesen. 


« Theoretische Beiträge in zeitkontinuierlicher Darstellung (Kapitel 4): 


— Eine neuartige, mit dem ADP-Formalismus kompatible, flexible, parametrierte 
Repräsentation der Referenztrajektorie, die sich aus der Superposition der Lö- 
sungen gewöhnlicher Differenzialgleichungen ergibt. Existenz, Eindeutigkeit und 
Stabilität der optimalen Lösung werden analysiert. Schließlich wird ein Konzept 
vorgestellt, das diese Solltrajektoriendarstellung in eine ADP-Methode integriert. 


e Reale Anwendungsbeispiele eines zuvor entwickelten ADP-basierten Solltrajektorien- 
folgereglers (Kapitel 6): 


— Ein Geschwindigkeitsregler für ein Realfahrzeug, dessen Abhängigkeit von einer 
parametrierten Beschreibung des Sollgeschwindigkeitsverlaufs direkt aus Messda- 
ten erlernt wird. Insbesondere findet die Adaption hierbei online statt, d.h. die 
Reglergewichte werden während der Fahrt im geschlossenen Regelkreis angepasst. 


— Ein ADP-basierter Solltrajektorienfolgeregler für ein reales Ball-auf-Platte-System. 
Dieser wird einerseits mit einem ADP-basierten Sollzustandsregler (Festwertre- 
gelung) und andererseits mit einem modellbasierten optimalen Reglerentwurf 
verglichen. 


2.4.2 Konvergenz ADP-basierter Regelungsansätze 


Bei sämtlichen adaptiven und ADP-basierten Regelungsverfahren wird eine ausreichende 
Anregung des Systems bzw. der für die Adaption relevanten Signale gefordert, um Konver- 
genz der zu schätzenden Parameter gegen die jeweiligen Zielgrößen zu gewährleisten. Die 
Signale, auf denen diese Adaption im ADP-Kontext beruht und für welche die Erfüllung der 
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PE-Eigenschaft gefordert wird, resultieren aus nichtlinearen Transformationen der Systemzu- 
stände (vgl. Abschnitt 2.3), woraus die folgende Forschungsfrage resultiert: 


Forschungsfrage 2: 


Welche Bedingungen an die dynamischen Zustände eines Systems gewährleisten, dass die 
PE-Eigenschaft eingehalten wird und ADP-Methoden konvergieren? 


Beitrag 2: 

In Kapitel 5 dieser Arbeit wird eine weitverbreitete PE-Eigenschaft für zeitkontinuierli- 
che ADP-Ansätze (vgl. (2.27)) analysiert. Hierbei werden eingangsaffine Nicht-Nullsummen- 
Differenzialspiele, die eine Generalisierung eingangsaffiner Optimalregelungsprobleme dar- 
stellen, betrachtet. Die Einhaltung der PE-Eigenschaft garantiert die Konvergenz der Critic- 
Gewichte bei Adaption mit einem Gradientenabstiegsverfahren. Wie Abschnitt 2.3 motiviert, 
spielen die in einem Signal vorhandenen Frequenzen eine wesentliche Rolle bei der Erfüllung 
der PE-Eigenschaft. Daher wird in der vorliegenden Arbeit untersucht, wie der Frequenzge- 
halt des Systemzustands durch die Verwendung polynomieller Basisfunktionen zur Critic- 
Funktionsapproximation beeinflusst wird. Der zentrale Beitrag ist schließlich durch neuartige 
hinreichende Frequenzbedingungen an den Systemzustand gegeben, welche gewährleisten, 
dass die für die Konvergenz benötigte PE-Eigenschaft erfüllt ist. Die präsentierten Bedingun- 
gen weisen zudem Freiheitsgrade bezüglich der für die Anregung verwendeten Frequenzen 
und Amplituden auf. Somit können anwendungsspezifische Anforderungen berücksichtigt 
werden. Ausgehend von den theoretischen Erkenntnissen werden Simulationsergebnisse 
präsentiert und diskutiert. 


3 Zeitdiskrete ADP-basierte 
Solltrajektorienfolgeregelung 


Dieses Kapitel beantwortet die Forschungsfrage, wie Solltrajektorienverläufe dargestellt wer- 
den können, um in zeitdiskrete, modellfreie ADP-Ansätze integrierbar zu sein (vgl. Forschungs- 
frage 1). Hierzu wird in Abschnitt 3.1 zunächst definiert, wodurch eine ADP-kompatible Soll- 
trajektoriendarstellung charakterisiert ist. Anschließend werden zwei Ansätze präsentiert: In 
Abschnitt 3.2 wird eine zeitdiskrete, parametrierte ADP-kompatible Solltrajektoriendarstellung 
vorgestellt, anschließend betrachtet Abschnitt 3.3 die Verwendung beliebiger Sollzustände auf 
einem endlichen Vorausschauhorizont. Ein abschließendes Resümee rundet das Kapitel ab. 


3.1 Definition ADP-kompatibler zeitdiskreter 
Trajektorien 
In diesem Abschnitt werden allgemeine Vorüberlegungen zur Funktionsweise von ADP- 


Methoden vorgenommen, um darauf aufbauend Anforderungen an den Entwurf ADP-basierter 
Trajektorienfolgeregler abzuleiten. Hierzu wird zunächst exemplarisch die zeitdiskrete Value 


Function 
VE Gee) 9 eens gee) (3.1a) 
K=k 
= r(zr, M(Le)) + WV" (ee41) (3.1b) 
= r(zr, alar)) + YV” (f (ex) + g(ex) w(ex)) (3.1¢) 


(vgl. (2.3a)) ohne Verwendung einer Solltrajektorie betrachtet. Jedoch lassen sich die hier 
gewonnenen Erkenntnisse auch auf Formulierungen unter Verwendung einer Q-Function 
(vgl. (2.7)) oder auf zeitkontinuierliche Darstellungen (vgl. (2.13) und (2.20b)) übertragen. Eine 
zentrale Eigenschaft der Value Function V#(x;.) ist, dass eine funktionale Abhängigkeit vom 
aktuellen Zustand x, die (ggf. diskontierten) Gesamtkosten repräsentieren kann, die über 
einen unendlichen Zeithorizont anfallen. Die Betrachtung der Value Function in (3.1) offenbart, 
dass dies maßgeblich der Markov-Eigenschaft des Systemzustands x, zu verdanken ist, der 
aus der Dynamik 

e+ = f (2k) + g(r) w(x) (3.2) 


des geschlossenen Regelkreises resultiert (vgl. [van12], [SLH*14]). Diese Repräsentation der 
Gesamtkosten in Form der Value Function V*(x;) ist mit dem betrachteten System (2.1), 
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dem mit der Value Function assoziierten Regelgesetz (x) und der Einschrittkostenfunktion 
r(2&%, Uz) verknüpft. Ohne diese Markov-Eigenschaft würde der Systemzustand x; nicht als 
alleiniger, expliziter Parameter der Value Function V*(x,) genügen, um die Kosten über 
einen unendlichen Zeithorizont korrekt abbilden zu können, da aus dem aktuellen Zustand 
£p der weitere Zustandsverlauf, der implizit in V“(a;,) enthalten ist, nicht bestimmt werden 
kénnte**. 


Aufgrund dieser Markov-Eigenschaft ist es basierend auf (3.1b) zudem grundsätzlich möglich, 
mithilfe von Datentupeln 


Tr = {£k MER), rer, M(@e)), Ek+1} (3.3) 


(und ggf. y) die Value Function V“(a;,), bzw. bei Verwendung eines Funktionsapproximators 


(vgl. (2.21)) das Critic-Gewicht w, zu bestimmen? (vgl. beispielsweise den Policy-Evaluation- 
Schritt der PI (2.22) oder der VI (2.25)). 


Um im Folgenden Solltrajektorienverläufe £r k, £r,k+1,. . . in das Gütefunktional J und somit 
die Value Function V zu integrieren, hängen die Einschrittkosten r neben dem Systemzustand 
x, und der Stellgröße up im Allgemeinen zusätzlich vom Sollzustand æ, ų ab und es ergibt 
sich r(£k, Lr,~, Uk). Würde eine Abhängigkeit von der Solltrajektorie £, k, &r,k+1,.. . nicht 
explizit in der Value Function verwendet und weiterhin eine Funktion der Form V” (æ+) 
zugrunde gelegt, wie beispielsweise in der Arbeit von Yu et al. [YSH* 17] (vgl. Abschnitt 2.2), 
so müsste diese Value Function Vx; die Gleichung 


VE (wr) = X N "ran Lre, la) = (we, Erk, ler) +V" (Er) 6A 
k=k 


erfüllen (vgl. (3.1)). Dies wäre jedoch bei beliebigen Sollzuständen £, ;, nicht möglich, da eine 
Abhängigkeit der Sollzustände nicht von der Value Function V*(x,) erfasst werden könnte. 
Für den sehr eingeschränkten Spezialfall, dass x, stets eindeutig durch eine zeitinvariante 
Abbildung fz, œ : R” > R” durch z, k = f v, œ (£k) mit dem Systemzustand x, verknüpft 
ist, ließe sich eine Value Function V” (æx) definieren, die (3.4) erfüllt. Die damit gelernte Value 
Function wäre jedoch implizit nur für diesen direkt mit x; korrelierten Sollzustandsverlauf 
gültig und in der Anwendung kaum von Nutzen. 


L,, ev 


Den Sollzustand nur für den aktuellen und np < © weitere Zeitschritte vorzugeben, wäre 
hingegen mit einem Optimierungsproblem mit endlichem Zeithorizont verknüpft, da der 


34 Ebenso ist es für klassische Methoden des RL, die das Lösen Markovscher Entscheidungsprozesse [Bel57b] 


anstreben, erforderlich, dass der Systemzustand a; die Markov-Eigenschaft erfüllt [SB18, S. 49], [KT03]. Bei 
Betrachtung stochastischer Markov-Entscheidungsprozesse ist somit die Zustandsübergangswahrscheinlichkeit 
nur vom aktuellen, nicht jedoch von vergangenen Zuständen abhängig. 

Da es sich bei (3.1b) um eine skalare Gleichung handelt, sind zur Schätzung eines h-dimensionalen Critic- 
Gewichts mindestens h unabhängige Datentupel erforderlich (vgl. beispielsweise [LVS12, S. 495]). Insbesondere 
kann der Critic unter Einbeziehung genügend vieler und entsprechend vielseitiger Datentupel 77, (d.h. bei 
ausreichender Anregung des Systems, vgl. Abschnitt 2.3) aus den während des Trainingsprozesses betrachteten 
Zustandsübergängen x,, H(p), &x+1 implizit die Systemdynamik und über die Einschrittkosten r (xx, (ax )) 
die zugrunde liegenden Gesamtkosten erlernen. 
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weitere Verlauf der Solltrajektorie x,,,, für k > k + np unbekannt wäre®®. Die Verwendung 
eines unendlichen Zeithorizontes ist jedoch nach Bemerkung 2.1 dafür verantwortlich, dass 
in (3.1) auf beiden Seiten der Gleichung dieselbe Value Function V*(-) auftaucht und diese 
somit durch denselben Funktionsapproximator beschrieben werden kann”. 


Würde eine Value Function eines Optimierungsproblems mit unendlichem Optimierungshori- 
zont gesucht, die einen komplett beliebigen Solltrajektorienverlauf berücksichtigt, so müsste 
diese eine Abhängigkeit beliebiger Sollzustände £r x, £r,x-+1, . . . bis ins Unendliche aufweisen, 
also durch 


oo 
V¥ (£k, Tr k; Tr, k+1, ... ) = 5 ac Tr ks HUlE£r, Triks Lr,c+l> ... )) 

ees (3.5) 
= r(x, Br,ky (Le, Er k, Vrk+1, ++ )) 


+ yV” (£k+1, Ir,k+1l, Lr,k425--- ) 


definiert sein (vgl. [KPRH20]). Eine Value Function dieser Form wäre jedoch weder aus 
theoretischer noch aus praktischer Sicht handhabbar: Weder lassen sich unendlich viele 
Eingabeparameter verwenden, noch ist in den meisten praktischen Anwendungen der Soll- 
verlauf (wie beispielsweise die Sollgeschwindigkeit oder Sollposition eines Fahrzeugs) bis 
ins Unendliche bekannt. Auch würde eine Value Function mit unendlich vielen beliebigen 
Referenzparametern mit einem unendlichdimensionalen Funktionsapproximator (vgl. Ab- 
schnitt 2.1.3) korrelieren. 


Somit offenbart sich, dass der Verlauf der Solltrajektorie zwar als explizite Abhängigkeit in 
die Value Function aufgenommen werden muss, dies aber mithilfe einer endlichdimensio- 
nalen Repräsentation erfolgen sollte, um handhabbar zu sein. Sei diese endlichdimensionale 
Repräsentation im Zeitschritt k allgemein durch einen n.-dimensionalen (n. < 00) Para- 
meter Çp € Z C R™ mit Definitionsbereich Z und &,,x = f„,.c(6,) gegeben, wobei 
Sa,,c: Z > X eine zeitinvariante Abbildung darstellt. Damit nun Ç, genügt, um den zeitli- 
chen Verlauf von £, x, VK > k, erfassen zu können, muss zudem für Ç, die Markov-Eigenschaft 
gelten, also der Parameter ¢,,, = f¢(¢;,) mit fe : Z > Z zum Folgezeitpunkt lediglich 
vom aktuellen Parameter ¢,, abhängen®®. Aus praktischer Sicht lässt sich durch den Parameter 
G, somit in jedem Zeitschritt k Information über den aktuellen Solltrajektorienverlauf im 
ADP-Mechanismus berücksichtigen. Beim Entwurf von f,, ¢(-) und f.(-) kann, abhängig 
von der Anwendung und den Anforderungen, nicht zuletzt durch die Wahl der Dimension 
nç des Parameters Ç ein Kompromiss zwischen der Komplexität und der Kompaktheit der 


36 Wird Vk > k + ny ein konstanter Sollzustand angenommen, so lässt sich hingegen wieder ein Optimierungs- 


problem mit unendlichem Optimierungshorizont formulieren. Dies wird in Abschnitt 3.3 vorgestellt. 

Die Verwendung desselben Funktionsapproximators auf beiden Seiten der Bellman-Gleichung würde bei einem 
Optimierungsproblem mit endlichem Optimierungshorizont zu einem systematischen Fehler führen. Bei sehr 
langem aber endlichem Optimierungshorizont oder bei einer starken Diskontierung (y < 1) würde dieser 
systematische Fehler zwar reduziert, jedoch führt ersteres zu einem hochdimensionalen und zudem schwierig 
trainierbaren Funktionsapproximator und letzteres verfälscht einerseits ggf. das eigentliche Optimierungsziel 
und kann andererseits ein instabiles Gesamtsystem begünstigen (vgl. Abschnitt 4.2.2). 

38 Bzw. in zeitkontinuierlichen Fall die Änderungsrate &(t) lediglich von ¢(t) abhängen (vgl. Abschnitt 4.1). 
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Solltrajektoriendarstellung eingegangen werden. Zusammenfassend lässt sich eine mit dem 
ADP-Formalismus kompatible Solltrajektoriendarstellung wie folgt definieren: 


Definition 3.1 (Zeitdiskrete ADP-kompatible Solltrajektoriendarstellung) 


Eine mit dem ADP-Formalismus kompatible Solltrajektoriendarstellung mit dem Sollzu- 
stand £r, € X ist durch zeitinvariante Funktionen f„.e:Z > X und fp: Z > Z 
mit 


rk = Fa,,c(Cr) (3.6) 


Ck+1 = FclCr) 


charakterisiert, wobei Ç € Z C R™, ng < x. 


Basierend auf Definition 3.1 lässt sich die folgende formale Aussage formulieren”. 


Proposition 3.1 


Die Solltrajektoriendarstellung sei nach Definition 3.1 ADP-kompatibel. Für ein durch die 
zeitdiskrete Systemdynamik (2.1) beschriebenes System gilt dann: 


1. Sind die durch a 
SS yr Oe tee eG.) (3.8) 
k=k 


0 < y < 1, gegebenen Gesamtkosten (vgl. (2.3a)), die von der Sollzustandstra- 
jektorie £r k, Cr,k+1,... abhängen, endlich“, dann können sie durch eine Value 


Function der Form V” (£k, Çp) beschrieben werden. 


. Sind die durch 


r(&x, Lr k, Ur) RE D de Lr is Lae, Cai (3.9) 
K=k+1 


0 < y < 1, gegebenen Gesamtkosten (vgl. (2.7)), welche von der Sollzustandstrajek- 
torie £r k, Cr,k+1,... abhängen, endlich, dann können sie durch eine Q-Function 
der Form QU (£k, Cp, ur) beschrieben werden. 


” Ebenso gilt die Aussage von Proposition 3.1 auch für allgemeinere nichtlineare Systeme der Form 


+1 = F (Ek, ux), aus Gründen der Einheitlichkeit wurde hier jedoch der eingangsaffine Fall formuliert. 
Für sinnvoll gestellte Probleme schließt dies neben der Stabilisierbarkeit des Systems und einem zulässigen, 
d.h. insbesondere stabilisierenden, Regelgesetz yz auch ein, dass durch die Wahl der Diskontierung y bzw. des 
Solltrajektorienverlaufs die Gesamtkosten endlich bleiben. 
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Beweis: 
Unter Verwendung von (2.1), (3.6) und (3.7) folgt 


1. aus (3.8) 

VE (an, Cg): = T (Er, Er HEr, Cu )) (3.10a) 
= A Lr k, H(Ek, Lrk)) HYV” (Ek+1; Ser) (3.10b) 
= (wk, fo,¢(Cu)s (te Fe,.¢(Sx))) 

+V” (flex) + ala Face) Fela) 6100) 
sowie 


2. basierend auf (3.9) und analog zu (2.7) mit (3.10c) 


Q” (Ek, Cp, Uk) = T (Le, Er, Uk) + YV” (e415 +1) (3.11a) 
Zu T (£k, Fenék), ur) 
HAVS (Flan) + g(xx) mre, Sa,,cl&r)) Fe) (3.11b) 


== r(x, Fw,c(Cr), ur) 


- 1Q" (Fae) + glær) (Er, Fa.) Fe(Gu)s (tes Fe,.¢(Sx))): 
(3.11c) 


Eine ADP-kompatible Solltrajektoriendarstellung stellt somit sicher, dass die Repräsentation 
der Gesamtkosten in Form einer Value Function lediglich eine explizite Abhängigkeit von x; 
und ¢,, erfordert*!. Zudem hängt eine Q-Function in diesem Fall nur explizit von £k, C, und 
Uk ab. 


In der Arbeit von Yu et al. [YSH* 17], bei der für jede neue Kombination aus Referenztrajektorie 
und Anfangszustand der Regler neu trainiert werden muss, ist die Kompatibilitatsforderung 
nach Definition 3.1 nicht erfüllt. Die Betrachtung der in den Abschnitten 2.2.2 und 2.2.3 disku- 
tierten Methoden offenbart zwar, dass die dortigen zeitdiskreten Ansätze die Anforderung der 
ADP-Kompatibilitat erfüllen“?. Den existierenden Methoden gelingt es hierbei jedoch nicht, zu 


41 An dieser Stelle sei noch zu bemerken, dass auch Referenztrajektorienparameter, deren Folgezustand aus einer 


endlichen Anzahl vergangener Parameter hervorgeht, nach Definition 3.1 kompatibel sind. Um dies zu verdeutli- 
chen, werde exemplarisch Çk41 = f (Ck, 6x _ı) mit Cy, € Z C R”Š betrachtet. Für den Referenzparameter 


Cp = [Ch Ch_a]" gilt mit FC.) = FC, ni) aufgrund von p41 = [F™(Cy,Cn_1) GUT = 
TIT 

EGS (IM: Onexng| &) | =: f¢(¢;,) die Markov-Eigenschaft. 

Bei Ansätzen, bei denen ein stationärer Sollzustand vorgegeben wird, sind sowohl fz, ¢(-) als auch f¢(-) 

Identitatsabbildungen. 
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generalisieren, indem eine flexible, veränderliche, externe Vorgabe des Solltrajektorienverlaufs, 
wie in Abbildung 2.4 visualisiert, berücksichtigt werden kann. 


Bemerkung 3.1 

Zwar wird im Zeitschritt k angenommen, dass die durch Çp, fz, ¢(-) und fel) be- 
schriebene Solltrajektorie bis ins Unendliche fortgesetzt wird, jedoch kann aufgrund der 
expliziten Abhängigkeit der Value Function von Ç, dieser Parameter, der den Verlauf 
der Solltrajektorie definiert, prinzipiell jederzeit geändert werden. Wenngleich in jedem 
Zeitschritt k ein unendlicher Optimierungshorizont zugrunde gelegt wird, kann somit 
durch eine Anpassung von Ç, eine lokale Beschreibung der Solltrajektorie, d. h. ein im 
Zeitschritt k auf den lokalen Verlauf der Referenztrajektorie angepasster Parameter C ,, 
verwendet werden. Jedoch muss bei einem datenbasierten Training eines solchen optimalen 
Trajektorienfolgereglers (£p, ¢;,) darauf geachtet werden, dass dem ADP-Algorithmus 
Datentupel 


I; = {xx, Cr Klar; Cpls r(&p, Klar; Cr))s Lk+15 Gaia (3.12) 


(vgl. (3.3)) präsentiert werden, welche nach Definition 3.1 zu kompatiblen Solltrajektorien 
gehören. Dies erlaubt, neben der impliziten Abhängigkeit der Value Function V” (ax, Çp) 
von der Diskontierung y, der Systemdynamik f(-), g(-) und der Einschrittkostenfunktion 
r(-), auch die implizite Abhängigkeit vom Solltrajektorienverlauf, beschrieben durch 


Fae, cC) und f¢(-), zu erlernen. 


Die im vorliegenden Abschnitt erstmals formal definierte zeitdiskrete ADP-kompatible Soll- 
trajektoriendarstellung liefert den ersten Beitrag zu der in Abschnitt 2.4.1 formulierten For- 
schungsfrage 1 und legt den Grundstein zur Entwicklung ADP-basierter Solltrajektorienfolge- 
regler. 


Im weiteren Verlauf von Kapitel 3 werden Methoden vorgestellt, die extern vorgebbare Soll- 
trajektorienverläufe durch nach Definition 3.1 kompatible Referenzverläufe entweder lokal 
approximieren oder auf einem endlichen Vorausschauhorizont nutzen und dabei, wie in Be- 
merkung 3.1 beschrieben, die Konsistenz der während des Adaptionsvorgangs verwendeten 
Daten gewährleisten (vgl. Abbildung 3.1). Nachfolgend werden zwei zeitdiskrete ADP-basierte 
Solltrajektorienregler präsentiert. Die zentrale Idee beider Methoden ist dabei, eine Q-Function 
zu definieren, die explizit den zukünftigen Verlauf der Solltrajektorie berücksichtigt. Bei der 
in Abschnitt 3.2 vorgestellten Methode geschieht dies mithilfe von Parametern, welche den 
Verlauf repräsentieren, wohingegen der Ansatz in Abschnitt 3.3 die Sollzustände über einen 
gleitenden Vorausschauhorizont explizit in die Q-Function integrieren. 
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adaptiver, optimaler Trajektorienfolgeregler 


ADP-basierter 
ADP-kompatible Regelungsansatz 


Approximation Geen 


Solltrajektorie ———— 


System 


Anregungssignad ——————> 


Abbildung 3.1: Aufgabe der ADP-kompatiblen Approximation einer Solltrajektorie ist es, aus einem im Zeitschritt 
k von außen vorgegebenen Referenztrajektorienverlauf eine nach Definition 3.1 kompatible Darstel- 
lung mit endlichdimensionalem Referenzparameter ¢;, zu erzeugen. Aus den Tupeln {¢;,,¢,41}, 
die einem ADP-basierten Regelungsansatz zur Verfügung gestellt werden, kann dieser implizit 
Fx,,e) und f¢(-) und somit den lokal im Zeitschritt k approximierten Solltrajektorienverlauf 
berücksichtigen. 


3.2 Zeitdiskrete ADP-kompatible parametrierte 
Referenztrajektorie 


Um im Zeitschritt k eine kompakte Darstellung des Einflusses des zukünftigen Solltrajek- 
torienverlaufs auf die Gesamtkosten zu erhalten, wird im Folgenden eine Parametermatrix 
Z, definiert, die Basisfunktionen p(-) gewichtet und den Referenztrajektorienverlauf x, 
beschreibt. Diese Parametermatrix wird in die Q-Function QU (£k, Zk, Ux) integriert, hierbei 
entspricht ¢, = vec(Z.)*. Dadurch repräsentiert die Q-Function explizit die Abhängigkeit 
der akkumulierten (ggf. diskontierten) Gesamtkosten von dem durch Z;, beschriebenen und 
jederzeit beeinflussbaren Solltrajektorienverlauf. Der dieser Q-Function zugehörige Regler 
hängt letztlich ebenfalls explizit von der durch Z;, parametrierten Beschreibung der Referenz- 
trajektorie ab, ein gelernter Regler muss bei einer Änderung des Solltrajektorienverlaufs also 
nicht erneut trainiert werden. Zudem wird im Optimierungsproblem nicht nur die aktuelle 
Abweichung vom Sollzustand, sondern der (parametrierte) Sollzustandsverlauf, wie beispiels- 
weise Straßen-, Geschwindigkeits-, Konzentrations- oder Temperaturprofile, berücksichtigt. 
Dies erlaubt eine flexible Vorausschau von ADP-Reglern und verspricht Vorteile gegenüber 
einer konstanten Sollwertvorgabe. Nachfolgend wird dieser Ansatz als Parametrized Reference 
ADP (PRADP) bezeichnet.** 


Nach Einführung dieser referenzabhangigen Q-Function können Funktionsapproximatoren 
verwendet werden, um basierend auf dem TD-Fehler sowohl die Q-Function als auch den 
optimalen Regler zu schätzen. Der im Folgenden präsentierte Ansatz stellt insbesondere auf- 
grund der speziellen Formulierung der solltrajektorienabhängigen Bellman-Gleichung unter 
Verwendung einer verschobenen Parametermatrix sicher, dass trotz beliebiger Vorgabe des 


43 Hierbei bezeichnet vec(-) die Vektorisierung einer Matrix, indem die Spalten vertikal konkateniert werden. 


4 Teile des vorliegenden Abschnitts wurden in [KRP+ 20] veröffentlicht. 
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Solltrajektorienparameters ADP-Kompatibilität innerhalb der Trainingsdaten gewährleistet 
ist. Für den wichtigen Fall linear-quadratischer optimaler Trajektorienfolgeregler wird die 
dem Trajektorienfolgeregelungsproblem zugrunde liegende Q-Function anschließend analy- 
siert. Unter plausiblen Annahmen werden Existenz und Eindeutigkeit der optimalen Lösung 
des betrachteten Optimierungsproblems bewiesen. Zudem wird die Stabilität des geschlosse- 
nen Regelkreises für die optimale Lösung bei Verwendung einer diskontierten Gütefunktion 
untersucht und ein hinreichendes Stabilitätskriterium vorgestellt. Anschließend werden Simu- 
lationsergebnisse, welche die Flexibilität der neuartigen Methode offenbaren, präsentiert und 
diskutiert. Für die reale Anwendung der in diesem Kapitel entwickelten ADP-kompatiblen 
Solltrajektorienbeschreibung sei auf Kapitel 6 verwiesen. 


3.2.1 Allgemeine Problemstellung 


Betrachtet werde zunächst ein zeitdiskretes System mit unbekannter Systemdynamik® 


zr+ı = f (€k) + g(£k)Uk (3.13) 


mit dem diskreten Zeitschritt k € N>o, dem Systemzustand x; € R” und der Stellgröße 
ur € RP. Das System (3.13) sei steuerbar auf der kompakten Menge X C R”, die den Ursprung 
enthält (vgl. [KL15]). Weiterhin sei die durch die Parametermatrix 


Z«=| . |; (3.14) 


Zp € R”*™, und gegebene Basisfunktionen p(x) € R” beschriebene Sollzustandstrajektorie 
(Zr, K) € R” im Zeitschritt k durch 


x (Zr, K) = Zu p(k) (3.15) 


definiert. Dabei beschreibt x € N>o den Zeitschritt auf der Solltrajektorie aus lokaler Per- 
spektive des Zeitschritts k. Für x = 0 ergibt sich somit der Sollzustand im Zeitschritt k, 
wohingegen für x > 0 eine Vorausschau des Sollzustands für zukünftige Zeiten resultiert. 


Das Ziel der optimalen Trajektorienfolgeregelung ist es, dass der Systemzustand &;+,.. dem 
Solltrajektorienverlauf x,(Z,,«), £ = 0,1,..., optimal bezüglich eines Gütefunktionals Jy 
folgt. Konkret soll für ein System mit unbekannter Systemdynamik ein Regler u* (£k, Zr) 
gefunden werden, der das Gütefunktional 


I =), Ver (Ente, 2r(Zr, K), Ukts) (3.16) 
K=0 


45 Grundsätzlich lässt sich der PRADP-Mechanismus auch auf allgemeine nichtlineare Systeme F (£p, ur) an- 


wenden, jedoch erfolgt dann für die Optimierung im Policy-Improvement-Schritt im Allgemeinen kein direkter 
analytischer Ausdruck mehr. 
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minimiert. Dabei beschreibt y € (0, 1] einen gegebenen Diskontierungsfaktor und r(-) nicht- 
negative Einschrittkosten, die beispielsweise Abweichungen des Systemzustands £k} von 
£,(Zpk, K) sowie die aufgebrachte Stellenergie bestrafen können. Somit ergibt sich die nach- 
folgende Problemstellung. 


Problem 3.1 


Für eine durch Z;, parametrierte Sollzustandstrajektorie nach (3.15) werde die opti- 
male Stellgrößensequenz, die das Kostenfunktional Jy gemäß (3.16) minimiert, mit 


Up, Uz41,--- und die damit verknüpften Kosten mit J; bezeichnet. Zudem sei die Sys- 
temdynamik unbekannt. Gesucht ist die optimale Stellgröße u}, = u* (£y, Z) in jedem 
Zeitschritt k in Abhängigkeit vom aktuellen Zustand x;, und der aktuellen Solltrajektori- 
enbeschreibung Zr. 


3.2.2 Q-Function mit parametrierter Referenzdarstellung 


Im Folgenden wird eine modifizierte Q-Function vorgestellt, deren minimierendes Regelge- 
setz eine Lösung u* (£k, Zk) für Problem 3.1 darstellt. Diese Q-Function kann anschließend 
durch lineare Funktionsapproximatoren beschrieben und mithilfe einer ADP-Methode - bei- 
spielsweise dem LSPI-Ansatz [LP03] - ohne Kenntnis des Systemmodells aus Daten gelernt 
werden. 


Um die durch Jọ beschriebenen Kosten in (3.16) zu minimieren, muss die relative Zeit « auf 
der aktuellen Solltrajektorie, die nach (3.15) durch Z% parametriert ist, berücksichtigt werden. 
Dies geschieht durch die Verwendung einer um x Zeitschritte verschobenen Parametermatrix 
Z (x) nach der folgenden Definition. 


Definition 3.2 (Verschobene Parametermatrix Z (*)) 


Die Matrix Z (x) sei derart definiert, dass 
(219,5) = 2(Ze r +5) 
& Z p(j) = Zep + j) 


gelte. Demnach ist 


Z) = Z,D(k)=]| : (3.18) 


(K)T 
Zin 


eine modifizierte Version von Zu, = Z (0), sodass die zugehörige Referenztrajektorie um 
k Zeitschritte verschoben ist, wobei D(k) eine geeignete Matrix ist, sodass (3.17) gilt. 
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Anzumerken sei an dieser Stelle, dass D(«) gemäß Definition 3.2 im Allgemeinen mehrdeutig 
ist, da für den Fall n, > 1 das durch (3.17b) gegebene Gleichungssystem, das verwendet wird, 
) 


umZ a zu ermitteln, unterbestimmt ist. 


Weiterhin gelte die Kurzschreibweise æ, (zi?) = Er (2, 0) = 2,(Zx,K). Mit zw nach 
Definition 3.2 sei die erweiterte Q-Function, die den Solltrajektorienverlauf, parametriert 
durch Z,,, explizit einbezieht, wie folgt definiert. 


Definition 3.3 (Q-Function mit parametriertem Solltrajektorienverlauf) 
Sei 


Q” (xr, Zr, Ur) =r (Lp, (Zr), Ur) 


i > yfr (een 223) H (Gee Z;”)) 


= (3.19) 


= 1 (Xp, (Ze), Ur) 


+ 7Q" (wea, Ze H (wes, 2, ) j 


wobei u : R” x R”*”= — RP das zu bewertende Regelgesetz bezeichne. 


Mit dieser Definition repräsentiert Q” (£p, Zk, ug) die akkumulierten (diskontierten) Kosten, 
wenn sich das System im Zustand x. befindet, die Stellgröße up im Zeitschritt k angewandt 
wird, danach dem Regelgesetz u(-) gefolgt wird, und die Sollzustandstrajektorie durch Z;, 
parametriert ist. Basierend auf (3.19) ergibt sich die optimale Q-Function zu 


Q* (Ek, Ze, ur) =T (Er, %ı (Zr), Ur) 
+ min yQ“ (west, ZU u (wes, z®)) 
= r (Lk, 2 (Zr), Ur) 


+ 7Q* (wes, ZY u (wear, Zi) 


(3.20) 


Dabei bezeichnet u*(-) das optimale Regelgesetz, d.h. es gilt u* (wean, 2.) = uj, Wie 
das nachfolgende Lemma, das die Zusammenhänge des klassischen Q-Learnings [WD92] auf 
den PRADP-Fall überträgt, zeigt, erweist sich diese Q-Function als hilfreich, um Problem 3.1 
zu lösen. 


Lemma 3.1 


Die Stellgröße up, die Q* (£k, Zk, UK) minimiert, stellt eine Lösung für uj, nach Pro- 
blem 3.1 dar. 


3.2 Zeitdiskrete ADP-kompatible parametrierte Referenztrajektorie 43 


Beweis: 
Mit (3.20) folgt 


min Q* (wk, Zu, un) = r (we, &ı(Zu). ur) +7Q* (wur, ZC, whys) 
Uk 


= min Soor (20) u.) (3.21) 
Uk,Uk-+1;--- k0 


und somit direkt die Aussage des Lemmas. 


Wenn die optimale Q-Function Q* (£k, Zk, uz) bekannt ist, ergibt sich nach Lemma 3.1 die 
gesuchte optimale Stellgröße u% durch 


u, = arg min Q* (£k, Zk, Ur). (3.22) 


Uk 


Im nachsten Abschnitt wird die Q-Function durch lineare Funktionsapproximatoren beschrie- 
ben und basierend auf dem TD-Fehler die unbekannte Q-Function geschatzt. 


3.2.3 Funktionsapproximation und Policy Iteration der erweiterten 
Q-Function 


Da klassisches, tabellarisches Q-Learning wertkontinuierliche Zustands- und Stellgrößenräu- 
me nicht angemessen handhaben kann [van12], wird die als stetig angenommene Q-Function 
durch einen linearen Funktionsapproximator 


Q* (£k, Zr, Uk) = wT (£k, Zk, Uk) +e (£k, Zr, Uk) (3.23) 


beschrieben. Hierbei bezeichnet w* € R” den unbekannten optimalen Gewichtsvektor, 
p € R” einen geeigneten Basisfunktionsvektor und e den Approximationsfehler (vgl. Ab- 
schnitt 2.1.3). Da w* a priori unbekannt ist, sei die geschätzte optimale Q-Function durch 


Q* (Lr, Zk, ur) = TO (Ek, Zr, Ur) (3.24) 
gegeben. Analog zu (3.22) folgt daraus das geschätzte optimale Regelgesetz 


ju" (x, Zp) = arg min Q* (ap, Zp, un). (3.25) 


ur 


Basierend auf der parametrierten Q-Function ergibt sich der zugehörige TD-Fehler [Sut88] 
wie nachfolgend definiert. 
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Definition 3.4 (TD-Fehler der erweiterten Q-Function) 
Der TD-Fehler, der sich mit der geschätzten Q-Function Ge (-) (3.24) aus der Bellman- 
Gleichung (3.20) ergibt, sei durch 


bk = T (Lr, 2 (Zr), Ue) + YQ" (ar ZO, te (wea, Z) 


=Q (£k, Zr, Ur) 
zii; (xp, 2 (Zr), Uk) Ar yw'o (wea, Za (wes, z®)) 


Ze wp (2x, Zr, Uk) 


(3.26) 


definiert. 


Da der TD-Fehler die Qualitat der Approximation der Q-Function quantifiziert, wird das 
Gewicht ® € R” gesucht, welches den quadratischen TD-Fehler 5? minimiert. Da (3.26) eine 
skalare Gleichung darstellt, werden hierzu M > h Tupel 


Te {re Qi age k=1,...,M, (3.27a) 
mit 
Tk =r (Zk, £r(Zk), Uk), (3.27b) 
Qt = Th, = OTO (aK, Zk, Uk), (3.27c) 
F+ = Tp] = wd (wea, ZO, h (wes, as) (3.274) 


verwendet. Diese M Tupel werden aus gemessenen oder simulierten Systemtrajektorien 
(Cr, Ur, Cr +1), den Solltrajektorienparametern Z;, und verschobenen Solltrajektorienparame- 
tern Z (1) gebildet. Anschließend kann w mit einer geeigneten ADP-Methode, beispielsweise 
mit dem LSPI-Algorithmus [LP03], geschätzt werden. Mit den Tupeln Tk, k = 1,..., M, folgt 
aus (3.26)*° 


ö1 TL gi" OH 
= : +1Y : — 5 Ww. (3.28) 
Om TM M M 
< sA On ama 
= =r = 
Sofern die Anregungsbedingung 
Rang (®'®) =h (3.29) 
erfüllt ist, existiert nach Äström und Wittenmark [AW95, Theorem 2.1] durch 
w = (16) ' Sr (3.30) 


eine eindeutige Lösung wÙ, welche 6'6 minimiert. 


6 Dies stellt im Wesentlichen eine Erweiterung von [LP03, Abschnitt 5.1] auf ADP-Solltrajektorienfolgeregler mit 


parametriertem Referenzverlauf dar. 
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Bemerkung 3.2 


Die Verwendung von Zo) = Zk D(1) (vgl. (3.18)) anstelle von beliebigen nachfolgenden 
Parametern Zx+1 in den Trainingstupeln Tr, (3.27a) ist essenziell, da hierdurch (in Kom- 
bination mit der Systemdynamik (3.13)) gewährleistet wird, dass die für ADP-Methoden 
wichtige Markov-Eigenschaft erfüllt ist (vgl. Abschnitt 3.1 und [LV09]). Insbesondere wird 
hierdurch sichergestellt, dass die für den ADP-Formalismus verwendete Solltrajektorien- 
darstellung ADP-kompatibel nach Definition 3.1 ist, denn mit” 


G, = vec(Z;) (3.31) 
folgt in Analogie zu (3.6) 
fe,¢(Sx) = Zrp(0) = mat(¢,,n, nz) p(0) 


(vgl. (3.15)) und analog zu (3.7) 


FelCx) = vec(Z1) = vec(Z,D(1)) =vec(mat(¢,,n,nz)D(1)). (3.33) 


An dieser Stelle sei anzumerken, dass {1* (-), welches in ow nach (3.27d) verwendet wird, 
selbst eine Schatzung (fiir das optimale Regelgesetz) darstellt. Dieser Mechanismus, dass eine 
Schatzung basierend auf einer anderen Schatzung erfolgt, ist im Reinforcement Learning 
unter dem Begriff bootstrapping bekannt (vgl. [SB18]). Daher geniigt eine einmalige Schatzung 
von W basierend auf der Least-Squares-Lösung von (3.30) nicht, um die optimale Q-Function 
und den optimalen Regler zu ermitteln. Stattdessen wird eine Policy Iteration, beginnend bei 
einem zulässigen Initialgewicht wl, durchgeführt. Dieses Vorgehen ist in Algorithmus 3.1 
zusammengefasst, wobei der Schwellwert ey, eine Abbruchbedingung darstellt. 


Algorithmus 3.1 PRADP mithilfe des LSPI-Algorithmus 


: Initialisiere | := 0, ©! sodass j1(-) zulässig ist 
: do 
Policy Evaluation: berechne w+) basierend auf (3.30) mit w = w! 


1 

2 

3 I+1] 
4: Policy Improvement: berechne pid nach (3.25) 

5 L= q1 

6 


u > ex 
2 


: while 


47 Hierbei bildet mat(-) aus einem Vektor eine Matrix, wobei mat(vec( M), ñ, p) = M € R®*? gilt. 
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Bemerkung 3.3 


Aufgrund der Verwendung einer Q-Function, die explizit von der grundsätzlich belie- 
bigen Stellgröße u, abhängt, liegt ein Off-Policy-Verfahren vor (vgl. Abschnitt 2.1.4.4). 
Dies erweist sich insbesondere als vorteilhaft, da während des Aufzeichnens der M 
Datentupel Tk, k = 1,..., M, üblicherweise eine Anregung des Systems stattfinden 
muss, um die durch (3.29) gegebene Anregungsbedingung zu erfüllen und einen er- 
folgreichen Policy-Evaluation-Schritt zu gewährleisten. Die Behavior Policy, d. h. die 


Stellgröße up, die tatsächlich auf das System angewandt wird, kann daher zur System- 
anregung verwendet werden (beispielsweise durch additive Überlagerung von Rauschen 
oder harmonischen Schwingungen, siehe Kapitel 5). Demgegenüber wird die Target Poli- 
cy À“, die dem geschätzten optimalen Regelgesetz nach (3.25) entspricht, im Ausdruck 
yQ* (wet, Zo), ive (wet, 2.) in (3.26) verwendet, weshalb die mit dem geschätz- 


ten optimalen Regelgesetz assoziierte Q-Function gelernt wird. 


Mit QU () = Te) und qa" nach (3.19), wobei u = me sei, lasst sich die in [LP03, Theo- 
rem 7.1] gegebene Konvergenzaussage des LSPI-Algorithmus direkt auf den auf parametrierte 
Solltrajektorienverläufe erweiterten Fall übertragen. 


Proposition 3.2 (Konvergenz der Q-Function nach [LP03, Theorem 7.1]) 


Sei für alle Iterationen | durch € > O eine obere Schranke für den Approximationsfehler 
zwischen der zum Regelgesetz jl gehörenden geschätzten Q-Function Q| und der 
wahren Q-Function ge" gegeben, d.h. 


(3.34) 


Dann gilt für Algorithmus 3.1: 


lim sup jo" — Q“ < 


sm (=) 


I-00 


Beweis: 
Der Beweis ist in [LP03, Theorem 7.1] bzw. [BT96, Proposition 6.2] zu finden. 


Lagoudakis und Parr [LP03] betonen, dass eine geeignete Wahl der Basisfunktionen &(-) sowie 
die Erzeugung der Datentupel (d. h. eine geeignete Anregung) maßgeblich für die Fehlerschran- 
ke € verantwortlich sind. Nach Proposition 3.2 konvergiert Algorithmus 3.1 für adäquate Funk- 
tionsapproximatoren &(-) sowie eine angemessene Anregung somit gegen eine Nachbarschaft 
der optimalen erweiterten Q-Function. Jedoch ist für eingangsaffine Systeme (3.13) bzw. gene- 
relle nichtlineare Systeme F (x, u.) und allgemeine Kostenfunktionale (3.16) eine geeignete 
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Wahl an Basisfunktionen sowie deren Anzahl nach wie vor ein ungelöstes Problem“? [WHL17]. 
Zudem erfordert eine geeignete Systemanregung im allgemeinen, nichtlinearen Fall, dass die 
Trainingsdaten alle relevanten Bereiche des Zustands- und Stellgrößenraums abdecken, um 
die vorhandenen Nichtlinearitäten angemessen zu berücksichtigen und optimale Gewichte 
w* lernen zu können. Die neue ADP-basierte Solltrajektorienfolgeregelungsmethode wird im 
Folgenden anhand linearer Systeme und quadratischer Gütefunktionale betrachtet. Dieser 
in zahlreichen regelungstechnischen Problemen relevante LQ-Fall ermöglicht analytische 
Einsichten in die Struktur der Q-Function Q* (£k, Zr, u.) und somit eine geeignete Wahl 
der Basisfunktionen &(-) zur Funktionsapproximation. 


3.2.4 Linear-quadratische optimale Trajektorienfolgeregelung mit 
parametrierter Referenz 


Im Folgenden sei die Systemdynamik durch 
+1 = Axt, + Buk (3.36) 


und das Kostenfunktional durch 


= K T K 
Je = S07" (wer - (ZE) ) Q (were - 2e(ZO)) + uf, Retire 
K=0 
Bi le, „Qer + ur, „Rurn] (3.37) 
K=0 


mit ëp = hte — Er (2) beschrieben. Hierbei bestraft Q € R”*” die Abweichung des 


Systemzustands x. vom Sollzustand x, (z 2) und R € RP*P gewichtet den Stellaufwand. 


Zudem seien die folgenden Annahmen erfüllt. 


Annahme 3.1 
Sei Q = Q' > 0, R= R' > 0, (A, B) steuerbar und (A, C) detektierbar, wobei C 
derart definiert ist, dass CTC = Q gilt”. 


Annahme 3.2 
(k 


Sei die Matrix D(x), welche die verschobene Parametermatrix Z; ) nach (3.18) definiert 
(vgl. Definition 3.2), so, dass |\;| < 1, Vj = 1, . . . , nz, gilt, wobei A; die Eigenwerte von 
VyD(l) sind. 


48 Wang et al. [WHL17] bezeichnen die geeignete Wahl des Funktionsapproximators als „more of an art than 


science“. 
Jede symmetrische, positiv semidefinite Matrix lässt sich als Q = CTC schreiben, beispielsweise durch 
Diagonalisierung (vgl. [Lib12, S. 195]). 
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Die Bedeutung dieser Annahmen wird in der folgenden Bemerkung eingeordnet. 


Bemerkung 3.4 


Annahme 3.1 ist üblich für linear-quadratische Optimalregelungsprobleme. Hierdurch 
wird die Existenz und Eindeutigkeit einer stabilisierenden Lösung der zeitdiskreten al- 
gebraischen Riccati-Gleichung des Regulationsproblems, das durch (3.36) und (3.37) für 
Zr = 0 (d.h. für einen Sollzustand 0 für alle k) gegeben ist, gewährleistet (vgl. [Kucé72, 
Theorem 8]). 

Zudem ist es einleuchtend, dass für eine sinnvolle Problemstellung der Solltrajektorienver- 


lauf x, (z a derart definiert sein muss, dass ein Regelgesetz existiert, das mit einem 


endlichen Gütefunktional J, verknüpft ist. Wie der nachfolgende Satz 3.1 zeigen wird, 
garantieren Annahme 3.1 und Annahme 3.2 die Existenz einer solchen Lösung. 


Bevor das optimale Regelgesetz hergeleitet wird, wird der Trajektorienfehler e; ,, aus (3.37) 
durch 


ek, k = Tk+k T (Ze) 


= tp, — ZU p(0) 


Lk+rk 
—p(0) 0 J") | 
k,l 
27, t A lb (3.38) 
nn in 
=:M Se 
=k, n 
k = 0,1, ..., ausgedrückt. I, bezeichnet die n x n-Einheitsmatrix und &;, . stellt den um den 


Referenzparameter Z (x) erweiterten Systemzustand x;,4,, dar. Der zugehörige Optimalregler 


ist durch den folgenden Satz gegeben. 
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Satz 3.1 (Optimales Regelgesetz des zeitdiskreten parametrischen Trajektori- 
enfolgeregelungsproblems) 


Seien eine Sollzustandsrepräsentation x, (ae) (vgl. (3.15)) und eine Verschiebungsma- 
trix D(k) wie in Definition 3.2 gegeben. 


1. Das optimale Regelgesetz, das (3.37) unter Berücksichtigung der Systemdyna- 
mik (3.36) minimiert, ist linear bezüglich Zk « in (3.38) und somit durch 


u" (oo Zo) =ut,,= Ken, 6=0,1,..., (3.39) 


gegeben. Die optimale Verstärkungsmatrix K* ergibt sich zu 


K* = QB PB + R) YB PA, 


(3.41) 


A e Rrtmtl)xnn+1), B e Re+., In (3.40) bezeichnet P die Lösung der 
zeitdiskreten algebraischen Riccati-Gleichung 


P=„yA'PA-NA'PB(R+B'PB)"'"B'PA+Q (3.42) 
mitQ = M™QM und M nach (3.38). 


. Des Weiteren sind unter Annahme 3.1 und Annahme 3.2 Existenz und Eindeutigkeit 


des optimalen Regelgesetzes u“ (em Z A gesichert. 


Beweis: 
1. Mit (3.38) kann das Gütefunktional (3.37) zu 


oo 
Ka) [#1,.M’QMä,.. + up ,,Rurt« (3.43) 
K=0 
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umgeformt werden. Mit (3.36) und (3.18) gilt zudem 


Axkır F Buri 


. DZ) N 
Tk,k+1 = . = Afk n + Bury. (3.44) 


D1) z6) 


Mit y, A, B, Q und R ergibt sich somit ein diskontiertes Standard-LQ-Optimalrege- 
lungsproblem aus (3.43) und (3.44) für den erweiterten Zustand £x .. Dieses diskontierte 
Problem ist äquivalent zum undiskontierten LQ-Optimalregelungsproblem mit AA, 
VIB ,Qund R (vgl. [GGH*18]). Für dieses undiskontierte Standard-LQ-Optimalrege- 
lungsproblem ist wohlbekannt, dass der optimale Regler linear bezüglich des Zustands 
(d.h. hier des erweiterten Zustands x; „) ist und die optimale Zustandsrückführungs- 
matrix durch (3.40) gegeben ist [LVS12, Abschnitt 2.4]. Daher gilt (3.39) und somit die 
erste Aussage von Satz 3.1. 


2. Bezüglich der zweiten Aussage sei zunächst angemerkt, dass die Stabilisierbarkeit von 
(TA, V7B) direkt aus Annahme 3.1 und Annahme 3.2 folgt, da (A, B) steuerbar 
ist und |\;| < 1, Vj = 1,...,n,, gilt. Zudem folgt aus Q > 0 direkt Q > 0. Weil 
(A, C) nach Annahme 3.1 detektierbar ist und da alle zusätzlichen Zustände in A im 
Vergleich zu A aufgrund von Annahme 3.2 stabil sind, folgt, dass (VIA, ©) (mit Č 
so, dass C'C = Q) ebenfalls detektierbar ist. Schließlich folgt nach Kučera [Kué72, 
Theorem 8], dass wegen Q > 0, R > 0, (VTA, V7B) stabilisierbar und (/7A, ©) 


detektierbar eine eindeutige Lösung existiert. 


Bemerkung 3.5 
Satz 3.1 offenbart, dass im Fall bekannter Systemmatrizen A und B die optimale Lösung 


K* direkt durch das Lösen der zeitdiskreten algebraischen Riccati-Gleichung (vgl. [AL84]), 
die zu VIA, VIB, Q und R gehört, resultiert. 


Gleichung (3.44) zeigt letztlich auch, dass die, aus ADP-Sicht fundamentale, Markov-Eigenschaft 
gilt. Ausgehend von Satz 3.1 wird für den Fall unbekannter Systemmatrizen A und B die 
folgende LO-PRADP-Problemstellung formuliert. 
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Problem 3.2 (LQ-PRADP) 

Sei die durch die Matrizen A und B beschriebene Systemdynamik unbekannt. Gesucht 
ist die Reglermatrix K* (vgl. (3.39)), die das Kostenfunktional Jj, (3.37) minimiert. Die 
optimale Stellgröße im Zeitschritt k ist dabei durch 


gegeben. 


Bevor das optimale Regelgesetz K* ohne Kenntnis der Systemmatrizen A und B mit ei- 
nem ADP-Ansatz gelernt wird, wird im folgenden Lemma zunächst die genaue Struktur der 
optimalen Q-Function Q* (£k, Zk, Ux), die zu Problem 3.2 gehört, analysiert. 


Lemma 3.2 (Struktur der Q-Function mit parametrierter Solltrajektoriendar- 
stellung) 


Die zu Problem 3.2 gehörende Q-Function weist die quadratische Form 


Lk T Axx hau hy, Tk 
Q* (Tk, Zk, Uk) E YL HY, = Uk hux Ruu huz Uk (3.46) 
Zk,lın hx hoy hz Zk, 1:n 
mit Jy = [er ul a : T 
gewählt sei, dass H = H" gilt. 


T T T WT ; 
Uj, Zp + =] auf, wobei H so 


Beweis: 
Mit (3.19) und (3.20) folgt 


Q* (ar, Zr, Uk) =T (2,2 (Zr), Ur) 


+ > yr (Der x, (Z,"”) we (Der z) l (3.47) 


K=1 


Wegen (3.36), (3.39) und (3.18) folgt, dass die Zustände x;,,,, und Stellgrößen w* (Cae zw 
Vk =0,1,... linear bezüglich Y, sind. Aus dieser linearen Abhängigkeit und mit (3.38) folgt 
Linearität von ey. „ bezüglich Yy, Vk > 0. Durch die Linearität von ex, „ und u*(-) bezüglich 
Yy und die quadratische Struktur von r(-) in (3.37) ist die Q-Function in (3.47) quadratisch 
bezüglich %, und folglich gilt (3.46). 
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Eine Konsequenz von Lemma 3.2 ist, dass die optimale Q-Function Q* exakt durch einen 
Funktionsapproximator Q* beschrieben werden kann, wenn w = w* den nicht-redundanten 
Elementen der Matrix H = HT entspricht” und die Funktionsapproximatoren zu 


(o (£p, Zk, Uk) T Yk 8r Ug (3.48) 


gewählt werden”!. Basierend auf Lemma 3.2 kann das optimale Regelgesetz wie nachfolgend 
gezeigt durch die Matrix H und ohne explizite Verwendung der Systemmatrizen A und B 
angegeben werden. 


Satz 3.2 (Optimales Regelgesetz in Abhängigkeit von H) 


Die eindeutige erweiterte optimale Zustandsrückführung, die Ją (3.37) minimiert, ist 
durch 


* * Kr = £ 
Uuk ZH (xk, Zr) re Lk, = — h [hux huz] | ; | (3.49) 
— aua 


Zk,lın 


IK: K3] 


x 


gegeben. 


Beweis: 
Nach Lemma 3.1 minimiert die Stellgröße uj, die Q*(a,, Zk, Uz) minimiert, auch J,. Mit 
(3.46) und H = H" liefert die notwendige Bedingung 


OQ* (Tk, Zk, Uk) 


= 2 (hxk + huzZk, 1:n + Rave) = 0 (3.50) 
Our ? 


die in (3.49) gegebene Stellgröße uz. Des Weiteren zeigt 
PQ" (x, Zr, Ur) 


du? 
dass hy, > O gelten muss, damit die Stellgröße u% in (3.49) auch tatsächlich Jẹ in (3.37) 
minimiert. Daher wird im Folgenden hwu > O gezeigt. Sei (£k, Uz) die optimale Q- 


= oh (3.51) 


reg 
Function, die den Regulationsfall mit x, (z =) = £,(0,«) = O beschreibt. Dann gilt 
Q* (xk, 0, wz) < Qrg(Tk, uk), Ve, E€ R”, uk E R’. (3.52) 
Zudem gilt nach Bradtke et al. [BYB94] 
T 
* _ |&k hreg xx Rreg xu Tk 
Qeg (Tr, Ur) = f] hee Preg.uu Uk 


_ fax|'[yATPA+Q  yATPB J [ax 
= Uk yB'PA yB'PB+R Uk 


(3.53) 


50 Nicht-redundant meint hierbei alle Elemente h; j der symmetrischen Matrix H mit i < j. Elemente von w, die 


zu Nebendiagonalelementen von H gehören, werden zudem mit dem Faktor 2 multipliziert. 
Der Operator ®r berechnet für identische Operanden das reduzierte Kronecker-Produkt mit nicht-redundanten 
Elementen. 
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für den Regulationsfall. Hierbei ist P die Lösung der zeitdiskreten algebraischen Riccati- 
Gleichung 


P=YA'PA-YATPB(R+B'PB)'B'PA+Q. (3.54) 


Unter Annahme 3.1 existiert eine eindeutige Lösung P = PT > 0 (vgl. [Kué72, Theorem 8)). 
Daher folgt aus (3.52) und (3.53) 


hu = hegu =YB'PB+R>0 (3.55) 


und somit die gesuchte Aussage. 


Da in (3.16) potenziell ein diskontiertes Gütemaß verwendet wird und Satz 3.1 aufgrund der 
Analogie der diskontierten Problemstellung zum nicht-diskontierten Problem mit der System- 
matrix /yA und der Eingangsmatrix ‚/yB zunächst nur Stabilität des fiktiven Systems 


k41 = (VAR, — VJBK* čų (3.56) 


gewährleistet, muss nachfolgend noch überprüft werden, ob für die gewählte Diskontierung 
0 < y < 1 das geregelte System 


Tk+1 = Ax; — BK? zę — BKC, (3.57) 


für beschränkte Referenzparametervorgaben ||¢;,||, < © mit Çy = vec(Z;,) stabil ist, d. h. 
ob sämtliche Eigenwerte von A — BK innerhalb des Einheitskreises liegen. In Anlehnung 
an die Eingangs-Zustands-Stabilität [Kha02, Definition 4.7] sei dieser Zusammenhang wie 
nachfolgend definiert als zeitdiskrete Referenz-Zustands-Stabilität bezeichnet. 


Definition 3.5 (Zeitdiskrete Referenz-Zustands-Stabilität) 


Ein geregeltes System ist Referenz-Zustands-stabil, wenn für beschränkte Referenzpara- 
metervorgaben 


Call, <® 


mit Çp = vec(Zr) beschränkte Systemzustände 


Ile < X, Vk > 0, 


resultieren. 


Bei Kenntnis von A und B können die Eigenwerte von A — BK; mithilfe des berechneten 
oder gelernten Reglers K* = [K * K z] direkt überprüft werden. Da die durch A und B be- 
schriebene Systemdynamik jedoch insbesondere im Fall adaptiver Optimalregler nicht immer 
bekannt ist, wird nachfolgend ein hinreichendes Kriterium gegeben, mit dem ausschließlich an- 
hand von Q, R und der ggf. mittels eines ADP-Ansatzes gelernten Q-Funktion Q* (£k, Zr, Ur) 
überprüft werden kann, ob die Reglermatrix K* das System (3.57) stabilisiert. 
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Satz 3.3 (Stabilitätskriterium des Solltrajektorienfolgeregelungsproblems) 
Sei H wie in (3.46) definiert. Aus Q* (xp, Zr, ur) folgt P* = hx — Bata hux und 
K* = hy hux (vgl. (3.49)). Wenn 


1 
by = Lygi (3.58) 


Anin (P*(P*-Q- KIRKI) 


gilt, dann liegen sämtliche Eigenwerte von A — BEX; innerhalb des Einheitskreises und 
das mit K* geregelte System ist Referenz-Zustands-stabil nach Definition 3.5. 


Beweis: 

Nach Satz 3.2 und wegen (3.52) folgt, dass mit Kenntnis von Q* (xx, Zg, ug) auch die opti- 
male Q-Funktion Qr..(&r, ur) des Regulierungsproblems ohne Vorgabe einer Solltrajektorie 
bekannt ist. Wegen 


V* (x) = Qreg (Le, u" (26) 
= a] Aya, + 22h” (£k) + pe" (2) (ae) 


ERST T ml T —1 —1 
= 2, Nyx ep — 2%, huhu RuxLk + Cr, Rruhu huhy Rx 


= æ], (Ar — Realtay Rux) £x (3.59) 
eS Aaa 
=:P* 


stellt P* die positiv definite Lösung der diskreten algebraischen Riccati-Gleichung (3.54) dar 
und das durch 


Tk+1 = VIA £p — YYBK;zı (3.60) 
—- u 
=A, = By 


gegebene System wird durch Ky stabilisiert. Somit liegen alle Eigenwerte von A, — B, K% 

innerhalb des Einheitskreises. Im Folgenden wird überprüft, ob für ein gegebenes ~y auch Sta- 

bilitat des durch Fa (A, - BY, Ky) = A — BK’, beschriebenen geschlossenen Regelkreises 
y 

gilt. 


Hierzu werde zunächst untersucht, für welche Konstanten c > 1 das System 
Tk+1 = c(A, _ B,Ky) xp (3.61) 


stabil ist. Betrachtet werde dazu der Lyapunov-Kandidat V* (æ) = x] P* x;,. Somit gilt 


V* (41) - Va) = £] (ca, - cB, K?) P* (cA, - cB, KŽ) - P*) PA 


— eee 
=M 


(3.62) 
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und (3.61) ist garantiert stabil, wenn M negativ definit ist. Durch Umformung ergibt sich 


M = dAIP*A, - P*- ?K/TBIP*A, - A1P*B, Ky + ° KY BI P*B,K; 
654) 


?Q + eP* - P*+AlP*B, (BIP*B, + R) BIP*A, 
- Ê K{' BI P* A, - e AL P* B,K* + ° K¥' BI P* B, K} 


1- )P* - 2K BIP* A, + KY BI PB, K? 


( 
= -2Q-(1-2)P* -KY (BIP*B, + R) K} + CK!TBIP'B,K! 
1- e)P* -e KIRK? 


= e (P*-Q- KRK?) — P* <0, 
(3.63) 
wobei die aus Ky = (BT P* B, + R BI P* A, resultierende Beziehung BI P* A, = 
(BI P*B, + R) Ký genutzt wird. Somit ist M stets negativ definit, wenn 


1< < min (E (P*-Q- KIRK) ') (3.64) 


gilt. Mit c? = > folgt schließlich die Aussage des Satzes. 


Das nachfolgende Beispiel verdeutlicht, dass Satz 3.3 ein hinreichendes Stabilitätskriterium 
für den geschlossenen Regelkreis x,41; = (A — BK7) x; liefert. 


Beispiel 3.1 Für das durch 


3 0 i 2 
A= |, A B=|) if 
(3.65) 


i 2 10 0 
bs B= [0 ı 
und unterschiedliche Diskontierungen y gegebene Optimierungsproblem folgen die Zu- 


sammenhänge in Tabelle 3.1. Hierbei isty > b nach Satz 3.3 hinreichend für die Stabilität 
von A— BEX, ohne A und B explizit zu kennen. 
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_ A- BK; 
A— BKy stabil nach 
y |eig(A,-B,KZ)| jeig(A-BK};) b, stabil Satz 3.3 


1 0,4883; 0,0286 0,4883; 0,0286 0,4337 ja ja 
0,6  0,6055; 0,0354 0,7818; 0,0457 0,5498 ja ja 


0,5 0,6484; 0,0380 0,9170; 0,0537 0,5836 ja k. A.” 


0,4 0,6976; 0,0412 1,1031; 0,0651 0,6142 nein kA. 


Tabelle 3.1: Eigenwerte des fiktiven Systems A, — B,K sowie des realen Systems A— BK% bei Rege- 
lung mit Ky, welches aus der optimalen Lösung des mit y diskontierten linear-quadratischen 
Optimierungsproblems mit den Parametern aus (3.65) resultiert. Die hinreichende untere 
Schranke by folgt aus Satz 3.3. 


Gemäß Satz 3.2 können, falls H (oder alternativ w*) bekannt ist, sowohl Q* als auch u* direkt 
berechnet werden. Deshalb ist das Ziel des PRADP-Ansatzes, w* mithilfe von Datentupeln 
Tk, k = 1,..., M, (vgl. (3.27a)) zu bestimmen. Da nach Lemma 3.2 die optimale Q-Function 
Q* (£k, Zr, UZ) zu Problem 3.2 quadratisch bezüglich y, ist, können hierfür quadratische 
Funktionsapproximatoren gewählt werden. Zudem liefert (3.49) in Satz 3.2 einen analytischen 
Zusammenhang zwischen H und dem optimalen Regelgesetz u* (£p, Z;). Daher können w* 
und somit auch der optimale Regler u“ (£k, Zp) datenbasiert und ohne explizite Kenntnis der 
Systemmatrizen A und B gelernt werden - beispielsweise durch Verwendung der LSPI in 
Algorithmus 3.1. Hierbei ergibt sich der Policy-Improvement-Schritt direkt zu 


AH (er Za) = — (RE) [rl ale] by , (3.66) 
k,1:n 
Eine konkrete ADP-Implementierung wird im Folgenden präsentiert. Zudem werden Simula- 
tionsergebnisse gezeigt und diskutiert. 


3.2.5 Implementierung und simulativer Vergleich des PRADP 


In diesem Abschnitt werden die Vorteile des vorgestellten PRADP-Verfahrens gegenüber einem 
weitverbreiteten Ansatz aus der Literatur, der annimmt, der Solltrajektorienverlauf folge global 
einer unbekannten Exosystemdynamik, simulativ gezeigt. Dazu wird zunächst beschrieben, 
wie ein beliebiger Solltrajektorienverlauf durch die beispielhafte und ADP-kompatible Wahl 
kubischer Polynome aus lokaler Sicht im Zeitschritt k approximiert werden kann. Anschlie- 
Bend wird ein Beispielproblem definiert. Für dieses Beispielproblem wird einerseits der in 
dieser Arbeit vorgestellte PRADP-Ansatz und andererseits die besagte Vergleichsmethode 
aus der Literatur trainiert. Für beide resultierenden Regler werden Simulationsergebnisse zu 
drei unterschiedlichen Szenarien betrachtet. Eine vergleichende Diskussion schließt diesen 
Abschnitt ab. 
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Keine Aussage möglich, Lyapunov-Kandidat liefert ein hinreichendes Kriterium. 
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3.2.5.1 Lokale Solltrajektorienapproximation durch kubische Polynome 


Der im vorliegenden Kapitel präsentierte Ansatz löst optimale Solltrajektorienfolgeregelungs- 
probleme, deren Gütefunktional ADP-kompatible Solltrajektorien berücksichtigt (vgl. (3.37)). 
Um den anwendungsnahen Fall beliebiger Sollvorgaben 2; 01,4 handhaben zu können, wird 
im Folgenden ein Verfahren vorgestellt, das aus einem beliebigen Sollzustandsverlauf, der auf 
einem endlichen, gleitenden Horizont der Länge ny, gegebenen ist, in jedem Zeitschritt k eine 
ADP-kompatible Approximation erzeugt. Exemplarisch’® werden hierzu kubische Polynome 
gewählt, die einen Kompromiss zwischen der Approximationsfähigkeit in der lokalen Nach- 
barschaft des aktuellen Zeitschritts und einer moderaten Zunahme der Anzahl zu lernender 
Gewichte darstellen. 


Damit x, (z 2 kubischen Polynomen entspricht, werde 


p(s) = [(kAt)? (sAt)? «At 1]' (3.67) 


gewählt, wobei At die Abtastzeit darstellt°*. Eine Transformationsmatrix D(x), die zu einer 


verschobenen Parametermatrix Z (x) nach Definition 3.2 führt, folgt aus dem durch 


2 (ZU?) = 1(Zu.6 +3) 


= Zrp(k + j) 
(x + j)At)? 
= (k + g)At)? 
E| (w+ 9)At 
! (3.68) 
1 3KAt 3(kAt)? (kAt)? 

O 0 1 2kAt (KAt)? f 
SAEN; - 1 rat | PU) 
0 0 0 1 
"Sn m? 
=:D(k) 
zw ; 
k PCJ) 


> Die Approximationstheorie stellt ein eigenes Forschungsgebiet dar und soll in der vorliegenden Arbeit nicht ver- 


tieft werden. Für Untersuchungen hinsichtlich der Approximationsfähigkeit von Polynomen auf einem endlichen 
Intervall sei z. B. auf [DS10] verwiesen. Während nachfolgend beispielhaft kubische Polynome verwendet werden, 
werden im Anwendungskapitel (Kapitel 6) lineare (Abschnitt 6.1) und quadratische (Abschnitt 6.2) Polynome mit 
konstanten Sollzustandsvorgaben verglichen. Eine geeignete Wahl der ADP-kompatiblen Solltrajektorienappro- 
ximation, wie der zugehörige Polynomgrad oder der gleitende Vorausschauhorizont np, hängt insbesondere von 
der konkreten Anwendung ab. Somit können für jede konkrete Problemstellung beispielsweise der gewünschte 
Solltrajektorienverlauf oder auch mögliches Vorwissen über die Zeitkonstante des zu regelnden Systems bei der 
Wahl eines ADP-kompatiblen Solltrajektorienapproximators berücksichtigt werden. 

Andere Approximationen können durch eine andere Wahl von p(k) erzielt werden. Beispielsweise führt 
p(x) = [kAt 1]" zu linearer Interpolation und p(«) = 1 zu einer konstanten Sollzustandsvorgabe. 
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gegebenen Zusammenhang”. Für einen beliebigen Solltrajektorienverlauf Zr soll,k wird ein 
Parameter Z;, in jedem Zeitschritt k benötigt, sodass 


Tr,1 (Zi) 
2,(Z1) = , 6=0,1,..., (3.69) 
Lin (Zi) 
eine Approximation von 
Tr soll,k+K,1 
Lr sol,k+s = : (3.70) 


Tr soll,k+K,n 


darstellt. Um diesen Parameter Z;, zu bestimmen, der den lokalen Solltrajektorienverlauf 
approximiert, sei die beliebige Solltrajektorie zur Laufzeit über einen gleitenden Voraus- 
schauhorizont von np Zeitschritten bekannt, d.h. £r soll,k:k+np—1 sei gegeben. Dann kann Z;, 
beispielsweise mithilfe einer gewichteten Least-Squares-Regression bestimmt werden. Sei 
hierzu 


Tr soll,k:k+ny—1 = [£r soll, cr re 5 
p'(0) 10> 0 
p'Ül) 0, 2 war 0 (3.71) 
Po:m-1 7 und W, = ete, te . ; 
Pr) Zu 


wobei W, die Gewichtungsmatrix mit den Least-Squares-Gewichtungen ß darstellt. Nachfol- 
gend werde beispielhaft 6 = y gewählt, sodass analog zur Diskontierung der Kosten (vgl. Jg 
in (3.16) und (3.37)) zukünftige Zeitschritte weniger wichtig bei der Least-Squares-Regression 
sind. Folglich ergibt sich die lokale Solltrajektorienapproximation durch den Parameter 


= 
Zr = Br soll,k:k+nn—1 W yPorn,—1 (Pb:n,—1 WpPo:n,—1) `. (3.72) 
ee cea er 
=:Pis 


Aus Anwendungssicht besonders günstig ist hierbei die Tatsache, dass sich bei gegebenem np 
und gegebenem p(-) die Matrix Prs im Voraus berechnen lässt, sodass sich die Berechnung 
von Z;, nach (3.72) auf eine einzelne Matrixmultiplikation beschränkt. Für den exemplarisch 
gewählten gleitenden Vorausschauhorizont np = 10, der auch im folgenden Simulationsbei- 
spiel verwendet wird, ist ein beispielhafter Ausschnitt eines Solltrajektorienverlaufs x; soll,k,1 
des ersten Zustands xı sowie dessen lokale Approximation für die Beispielzeitschritte k = 105 
und k = 106 in Abbildung 3.2 veranschaulicht. 
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Mittels Koeffizientenvergleich ist zudem ersichtlich, dass für Polynome vom Grad d allgemein 
(RAN RAD nn. (4) (rAt)@ 
d-1 0 d—1 d—1 
0 KAt syed KAt 
D(k) = y 0 )(nAt) (nt : ) gewählt werden kann. 


0 243 0 man 
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Ly, soll,k,1 
— (s) = (5) : 

Tril Zp 195) kb... nh © til Zico) 6 = nh Mt 1... 
Perr (K) (5) 

Tril Zp 196) £ = Ih... m © Tril Zul) 6 = Nh Mt 1,... 


—0,4 + 3 =| 


Tr,k,1 
e 


—0,5 L BR f 


l | | 
104 106 108 110 112 114 116 118 120 122 124 
Zeit k 


Abbildung 3.2: Beispielhafter Ausschnitt des Solltrajektorienverlaufs x, soı,x,ı des ersten Zustands xı (grau) sowie 
die lokale Approximation durch kubische Polynome zu den Zeitschritten k = 105 (rot) und k = 106 
(schwarz), die für Z,-105 bzw. Zx-ıo6 resultieren. Der Vorausschauhorizont, der für die lokale 
Solltrajektorienapproximation, d.h. die Anpassung des Solltrajektorienparameters Z;, in jedem 
Zeitschritt k, genutzt wird, ist in diesem Beispiel n, = 10 (rote durchgezogene und schwarze 
gestrichelte Linie). 


3.2.5.2 Beispielsystem und Gütefunktional 


Im Folgenden werde ein Feder-Masse-Dämpfer-System mit der Systemdynamik 


0 1 0 
z(t) = i dys | L(t) + | 1 | u(t) (3.73) 
a ee Mays 


mit Msys = 0,5kg, cys = 0,1 N m! und dsys = 0,1 kg s! betrachtet. Die Diskretisierung 
dieses Systems mittels Tustin-Approximation mit einer Abtastzeit von At = 0,1s liefert 


0,9990 ee En ee i (3.74) 


LT Eo 0,9792 0,1979 


Durch zı wird die Position und durch x2 die Geschwindigkeit der Masse Msys beschrieben, 
während die Stellgröße ux einer auf die Masse wirkenden Kraft entspricht. Die durch (3.73) 
bzw. (3.74) beschriebene Systemdynamik sei dem Regler im Folgenden nicht bekannt. 


Mit dem Ziel, die Position der Masse (d.h. x1) einem Solltrajektorienverlauf folgen zu lassen, 
werde 


Q = E | und R=1 (3.75) 
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gesetzt, um Abweichungen des ersten Systemzustands vom parametrierten Sollzustandsverlauf 
nach (3.37) zu bestrafen. Der Diskontierungsfaktor werde zu y = 0,9 gewählt. Für dieses 
Beispiel sind Annahme 3.1 und Annahme 3.2 erfüllt, d.h. nach Satz 3.1 existiert der optimale 


Regler u* (Tiss z) und ist zudem eindeutig. Außerdem folgt aus Satz 3.3 b, = 0,6263. 


Somit führt die optimale Lösung des mit y = 0,9 > b, diskontierten Optimierungsproblems 
zu einem nach Definition 3.5 Referenz-Zustands-stabilen System. 


3.2.5.3 Trainingsvorgang 


Der in diesem Kapitel vorgestellte ADP-basierte Solltrajektorienfolgeregler, der mit einer 
ADP-kompatiblen, parametrischen Darstellung des Sollzustandsverlaufs arbeitet, wird im 
Folgenden trainiert, um anschließend validiert zu werden. Zu Vergleichszwecken wird zudem 
ein ADP-Trajektorienfolgeregelungsansatz verwendet, dem, genau wie in den Arbeiten von 
Luo et al. [LLHW16] und Kiumarsi et al. [KLM*14], die Annahme zugrunde liegt, der Solltra- 
jektorienverlauf werde direkt und global durch ein Exosystem £, k+1 = f v, (£r,k ) erzeugt (vgl. 
auch Abschnitt 2.2.2). Somit hängt die Q-Function Q(&;, £r,k, ur) (vgl. [KLM* 14]) nur vom 
aktuellen Sollzustand x,,, im Zeitschritt k ab, wohingegen der Parameter Z;, der vorgestellten 
PRADP-Methode potenziell mehr Information über den Sollzustandsverlauf beinhalten kann. 
Für die Vergleichsmethode ist nach [KLM* 14, Abschnitt 5.1] die Q-Function Q(x, £r k, Ux) 
quadratisch bezüglich Œk, u, und £, k, sofern die Exosystemdynamik f p, (2;,,) linear ist, 
und die Policy Iteration nach [KLM*14, Algorithm 3] kann durchgeführt werden. 


Die beiden untersuchten modellfreien ADP-Trajektorienfolgeregelungsmethoden werden 
jeweils mit M = 500 Datentupeln Ty trainiert. Während des Datenaufzeichnens wird zur 
Systemanregung Rauschen, das aus einer Normalverteilung mit Mittelwert 0 und Standardab- 
weichung 1 erzeugt wird, zur Stellgröße u, addiert. Der Solltrajektorienverlauf während des 
Trainings werde durch 


Tr,scll,k+1,1| _ „ Fe js 0,9988 0,0500 R 
Tr soll, k+1,2 = br sol,k+1 — J x, \#r,soll,k) = —0,0500 0,9988 r,soll,k (3.76) 
2 
Frei 
mit dem Initialzustand £y son,o = [0 ‘Ah beschrieben”. Die Vergleichsmethode gemäß 


[KLM* 14] bzw. [LLHW16] verwendet Lyk = Er,soll,k, wohingegen für die PRADP-Methode 
der nach Abschnitt 3.2.5.1 bestimmte Parameter Zx, der ein kubisches Polynom parametriert 
und den Sollzustandsverlauf ab dem jeweiligen Zeitschritt k beschreibt, genutzt wird. 


Der PRADP-basierte Regler wird dann entsprechend Algorithmus 3.1 trainiert, wobei die Ab- 
bruchbedingung ea, = 10° gewählt wird. Der Policy-Improvement-Schritt erfolgt nach (3.66). 
Aufgrund von Lemma 3.2 werden Basisfunktionen &(-) gewählt, die quadratisch bezüglich 
Tk, Uk und Zk 1:n sind. Weiterhin wird mangels besseren Wissens w so initialisiert, dass 


36 Diese lineare Exosystemdynamik wird insbesondere verwendet, um die Voraussetzungen der Vergleichsmethode 


zu erfüllen. Für die PRADP-Methode wäre dies, wie auch im Anwendungskapitel 6 ersichtlich, grundsätzlich 
nicht nötig, da die Verwendung von Z, und Z (1) in (3.26) ADP-Kompatibilitat gewährleistet. 
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pl = 0 gilt”. Der gesamte Ablauf ist in Abbildung 3.3 veranschaulicht. Die Vergleichs- 


methode ist wie in [KLM*14, Algorithm 3] beschrieben implementiert, wobei ebenfalls die 
Abbruchbedingung ea = 10° sowie pl = 0 genutzt wird. 


3.2.5.4 Untersuchung der gelernten Regler 


Zunächst werden die aus Daten und ohne Kenntnis der Systemmatrizen A und B gelern- 
ten ADP-Regler mit den analytisch berechneten Grundwahrheiten verglichen. Anschlie- 
ßend werden verschiedene Simulationsszenarien betrachtet, um Unterschiede zwischen dem 
PRADP-Regler und dem Vergleichsverfahren hinsichtlich ihrer Flexibilität und Performanz 
herauszuarbeiten. 


Solltrajektorie Trai- 


ning Ly soll,k:k+n,—1 


unbekanntes |©k+1 Tk | 


Referenzparameter Z;, + p(k) 

basierend auf gewichte- 

ter LS-Schatzung (3.72) B 
—— Z, 


sammle M Tupel 


Verschiebungs- 


Z {re u, eey Ze, 20} matrix D(1) 


Training mit M Tupeln 


initialisiere w" und somit u, f=) 


Policy Evaluation Policy Improvement 


ytd 
bilde ® und c aus berechne pd (3.25), 
M Tupeln (3.28), setze 1:=1+1 
berechne últ! (3.30) I 
pl : & 
nicht erfüllt Abbruch- 
bedingung 


Ausgabe pl 


Abbildung 3.3: Ablaufschema des Datenaufzeichnungs- und Trainingsprozesses des PRADP-Algorithmus. Eingabe- 
größen sind hierbei die Stellgröße up und Solltrajektorie £; soll,k:k+np—1 Während des Trainings, 
die Basisfunktionen p(«) zur Referenzapproximation und der Parameter (3 für die gewichtete Least- 
Squares-Approximation. Sobald die Abbruchbedingung (siehe Algorithmus 3.1) erfüllt ist, wird der 
geschätzte optimale Regler mo ausgegeben. 


37 Dies kann erreicht werden, indem die Gewichte, die zu huu gehören, so gesetzt werden, dass hy, > O gilt, 


wohingegen alle anderen Gewichte zu null gesetzt werden (vgl. Lemma 3.2). 
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Für die Verwendung der parametrierten Solltrajektorie ergibt sich die optimale Reglermatrix 
K*, die unter Verwendung des vollständigen Systemwissens nach Satz 3.1 und Bemerkung 3.5 
berechnet werden kann, zu 


u (ar, Zr) = — [6,30 2,26 -0,31 -0,97 -2,37 -640 0 0 0 aes | 
ep ek — 


(3.77) 


Der Vergleich des gelernten PRADP-Reglers Kprapp mit dieser Grundwahrheit K™ liefert 
|Kprapp — K* ||, = 6,51- 10%. Somit stimmt der ohne Kenntnis der Systemdynamik gelern- 
te PRADP-Regler bis auf numerische Ungenauigkeiten mit der optimalen Lösung überein. 


Für die Vergleichsmethode ergibt sich der optimale Regler, nachfolgend durch u;,,() und die 
Reglermatrix K';,, bezeichnet, für das gegebene Beispielproblem nach [KLM* 14, (58)] zu 


Kir (Ir, &ı,r) = — [6,30 2,26 —6,28 —1,18] Br (3.78) 
ee > r,k 
ma 


exo 


Die Reglermatrix K exo, app, die wie in Abschnitt 3.2.5.3 beschrieben aus Daten gelernt wird, 
stimmt ebenfalls mit der Grundwahrheit überein, da || K exo, app — Kxo||a = 2,60 : 10"? gilt. 
Somit liegt auch hier ein erfolgreich gelernter Regler vor. 


Um die Performanz des in dieser Arbeit vorgestellten PRADP-Reglers und der Vergleichsme- 
thode zu untersuchen, werden drei unterschiedliche Szenarien betrachtet. In allen Szenarien 
werden die zuvor gelernten Regler ohne weitere Anpassungen verwendet, zudem wird jeweils 
der Anfangszustand zu £o = [1 0] g gesetzt. Die unterschiedlichen Szenarien werden im 
Folgenden beschrieben. 


1. Der Sollzustandsverlauf wird durch dieselbe Exosystemdynamik erzeugt, die wäh- 
rend des Trainings verwendet wurde, d.h. F',er wie in (3.76). Der resultierende Verlauf 
des Zustands x, ist in Abbildung 3.4a gezeigt. In Abbildung 3.4b sind die Parameter 

Tu : : : 
Zhi = [2%,1,1 te 25] mit n, = 4 gegeben. Diese parametrieren das kubische 
Polynom, das x.,1ı(Zx,0) beschreibt. 


2. Der Sollzustandsverlauf wird ebenfalls durch eine zeitinvariante Exosystemdynamik 
erzeugt, jedoch durch eine andere Dynamik als die während des Trainings verwendete, 
d.h. es gilt Fret va # F'rer. Der Verlauf des Sollzustands wird durch 


x _ [ 0,9987 0,0030] 
»k+l | 01998 0,9987| °* 
n————~_|_-_——__ 


=! F ref, val 


(3.79) 


mit £9 = [10 1] T beschrieben. Der resultierende Verlauf des Zustands xı sowie die 
Polynomkoeffizienten, die den Sollverlauf approximieren, sind in Abbildung 3.5 gegeben. 
Um darüber hinaus die Qualität der Trajektorienfolgeregler im Sinne der resultierenden 
Kosten vergleichen zu können, sind die Einschrittkosten r (£k, &,(Zx), ur) sowie die 
akkumulierten Kosten > r(a;,%,(Z;), ui) gezeigt. 
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3. Im dritten Szenario wird der Sollzustandsverlauf nicht durch ein zeitinvariantes Exo- 
system generiert, sondern eine benutzerdefinierte Vorgabe für £r son,4,1 verwendet und 
anschließend, wie in Abschnitt 3.2.5.1 beschrieben, durch 2, ;,,; approximiert. Der sich 
ergebende Sollverlauf ist in Abbildung 3.6a gezeigt. Zudem wird in diesem Beispiel 
Tr k,2 = 0, Vk, gesetzt. Dies ist dadurch motiviert, dass der zweite Systemzustand auf- 
grund der Wahl von Q in (3.75) ohnehin nicht bestraft wird. Die Ergebnisse sind in 
Abbildung 3.6 veranschaulicht. 


3.2.5.5 Diskussion der Simulationsergebnisse 


Wie den Abbildungen 3.4a, 3.5a und 3.6a zu entnehmen ist, kann der PRADP-Regler in allen 
drei Szenarien dem Sollzustandsverlauf folgen. Da der Regler durch den Parameter Z;, nicht 
nur Informationen über den im Zeitschritt k aktuellen Sollzustand, sondern auch über dessen 
(lokal approximierten) zukünftigen Verlauf besitzt, weist der PRADP-Regler vorausschauendes 
Verhalten auf, anstatt rein reaktiv zu handeln. Dies ist in den Abbildungen 3.4a, 3.5a und 
3.6a zu sehen, da der Systemzustand dem Sollverlauf direkt folgt und es zu keiner zeitlichen 
Verzögerung kommt. 


£r,1 (Zp) (Sollverlauf) 
=== T1 PRADP — %11 
ei T1, exo Zk,1,3 


Zk,1,2 
Zk,1,4 


(a) (b) 


Abbildung 3.4: Ergebnis der vorgestellten PRADP-Methode im Vergleich zu einem Regler nach [LLHW16], 
[KLM* 14] für Szenario 1, bei dem der Solltrajektorienverlauf durch Fef generiert wird. 
(a): Der approximierte Solltrajektorienverlauf x;,1(Z, 0) ist in Grau dargestellt, der resultierende 
Zustand bei Verwendung des vorgestellten PRADP-Algorithmus in Rot und das Ergebnis der Ver- 
gleichsmethode in Schwarz. 
(b): Parametervektor z7.,ı der kubischen Polynome, welche den Solltrajektorienverlauf x,,ı (Zr, 0) 
beschreiben. 
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Abbildung 3.5: Ergebnis der vorgestellten PRADP-Methode im Vergleich zu einem Regler nach [LLHW16], 
[KLM* 14] für Szenario 2, bei dem der Solltrajektorienverlauf durch Fef val # Frer generiert 
wird. 

(a): Der approximierte Solltrajektorienverlauf x,,ı (Zx,0) ist in Grau dargestellt, der resultierende 
Zustand bei Verwendung des vorgestellten PRADP-Algorithmus in Rot und das Ergebnis der Ver- 
gleichsmethode in Schwarz. 

(b): Parametervektor 27, ı der kubischen Polynome, welche den Solltrajektorienverlauf x, ı (Zx,0) 
beschreiben. 

(c): Die Einschrittkosten r (2%, £&r(Zx), ur), welche bei Verwendung der PRADP-Methode entste- 
hen, sind in Rot gezeigt, wohingegen die mit der Vergleichsmethode verbundenen Kosten in Schwarz 
visualisiert sind (logarithmische Ordinate). 

(d): Die akkumulierten Kosten ee T(£i, £r( Zi), ui) der PRADP-Methode sind in Rot, die der 
Vergleichsmethode in Schwarz gegeben (logarithmische Ordinate). 
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Abbildung 3.6: Ergebnis der vorgestellten PRADP-Methode im Vergleich zu einem Regler nach [LLHW16], 


[KLM+ 14] für Szenario 3, bei dem der Solltrajektorienverlauf keiner Dynamik folgt, sondern einer 
beliebigen benutzerdefinierten Vorgabe entspricht. 

(a): Der approximierte Solltrajektorienverlauf x,,ı (Z,0) ist in Grau dargestellt, der resultierende 
Zustand bei Verwendung des vorgestellten PRADP-Algorithmus in Rot und das Ergebnis der Ver- 
gleichsmethode in Schwarz. 

(b): Parametervektor z;,,1 der kubischen Polynome, welche den Solltrajektorienverlauf x,,ı (Zp, 0) 
beschreiben. 

(c): Die Einschrittkosten r(&;, &:(Zx), uk), welche bei Verwendung der PRADP-Methode entste- 
hen, sind in Rot gezeigt, wohingegen die mit der Vergleichsmethode verbundenen Kosten in Schwarz 
visualisiert sind (logarithmische Ordinate). 

(d): Die akkumulierten Kosten „er, r(2;,%,(Z;),W;) der PRADP-Methode sind in Rot, die der 
Vergleichsmethode in Schwarz gegeben. 
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Die Vergleichsmethode nach [LLHW16] bzw. [KLM*14] führt zu ähnlichen Ergebnissen, 
solange der Solltrajektorienverlauf mit der Exosystemdynamik F'yer, die während des Trainings 
verwendet wurde, übereinstimmt, wie dies in Szenario 1 der Fall ist (vgl. Abbildung 3.4). Dieser 
Vergleichsregler weist jedoch teilweise signifikante Abweichungen vom Solltrajektorienverlauf 
auf, sobald dieser nicht mehr durch die Dynamik F',er beschrieben wird, d. h. sobald (3.76) nicht 
mehr gilt. Dies offenbart sich in Szenario 2 (Abbildung 3.5) und Szenario 3 (Abbildung 3.6). 
Obwohl der Vergleichsregler dem Sollzustand in Szenario 3 näherungsweise folgt”, hat der 
Regler keinerlei Kenntnis über den weiteren Verlauf des Sollzustands. Durch diese mangelnde 
Vorausschaufähigkeit kann der Regler nur reagieren und es kommt zu einem zeitlichen Versatz 
zwischen der Trajektorie des Zustands x; und dem gewünschten Verlauf. 


Zudem offenbaren die Einschrittkosten in den Abbildungen 3.5c und 3.6c sowie die akku- 
mulierten Kosten in den Abbildungen 3.5d und 3.6d, dass die Kosten der Vergleichsmethode 
signifikant über den Kosten des PRADP-Ansatzes liegen, sobald der Solltrajektorienverlauf 
nicht mehr durch die während des Trainings verwendete Exosystemdynamik F'er beschrieben 
wird. Dies ist insbesondere auf größere Abweichungen von der Solltrajektorie zurückzufüh- 
ren. 


Abschließend lässt sich zusammenfassen, dass die beiden betrachteten ADP-Methoden zwar in 
Szenario 1 vergleichbare Ergebnisse liefern, die in dieser Arbeit vorgestellte PRADP-Methode 
jedoch in Szenario 2 und Szenario 3 überlegen ist. Dies liegt insbesondere daran, dass der 
PRADP-Regler zur Laufzeit stets lokal den aktuellen Solltrajektorienverlauf mithilfe des Para- 
meters Z; approximiert und daher im Gegensatz zum Vergleichsregler nicht annehmen muss, 
dass der Sollzustandsverlauf derselben Exosystemdynamik wie während des Trainingsvor- 


gangs folgt. 


3.3 Zeitdiskrete ADP-kompatible Referenztrajektorie auf 
einem endlichem Vorausschauhorizont 


Nachdem im letzten Abschnitt eine ADP-kompatible parametrierte Darstellung des Sollzu- 
standsverlaufs vorgestellt und in eine Q-Function integriert wurde, wird im vorliegenden 
Abschnitt die Verwendung eines beliebigen Sollzustandsverlaufs auf einem endlichen Voraus- 
schauhorizont untersucht°”. Hierzu wird zunächst eine ADP-kompatible Problemformulierung 
gegeben. Konkret wird ein linear-quadratisches® Optimierungsproblem mit unendlichem 
Zeithorizont angesetzt (vgl. Bemerkung 2.1). In dieses Optimierungsproblem geht in jedem 
Zeitschritt k der beliebige, auf einem gleitenden Vorausschauhorizont der Länge np gegebene, 
Sollzustandsverlauf ein. Um eine ADP-kompatible Darstellung nach Definition 3.1 zu erhalten 
und das Kostenfunktional auf einem unendlichen Zeithorizont definieren zu können, wird 


58 Dies ist dem Zustandsrückführungsterm K’% «xo des Reglers K'},,, der identisch zum Zustandsrückführungsterm 
des PRADP-Reglers ist, sowie dem Regleranteil, welcher der aktuellen Sollzustandsposition zugeordnet ist und 
der bei beiden Methoden ähnliche Werte aufweist (d.h. —6,40 in (3.77) bzw. —6,28 in (3.78)), zu verdanken. 

Teile des vorliegenden Abschnitts wurden in einer wissenschaftlichen Fachzeitschrift veröffentlicht [KWFH20]. 


Linear-quadratische Optimierungsprobleme sind für zahlreiche regelungstechnische Probleme relevant. 


59 
60 
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der Sollzustandsverlauf jenseits des Vorausschauhorizonts als konstant angenommen. Für 
diese Problemstellung lässt sich eine Q-Function definieren, die den beliebigen Sollverlauf 
auf dem gleitenden Horizont explizit berücksichtigt. Eine genaue Analyse der Form dieser 
erweiterten Q-Function für linear-quadratische Problemstellungen führt einerseits zu Existenz- 
und Eindeutigkeitsaussagen bezüglich der optimalen Lösung und erlaubt schließlich eine 
kompakte Approximationsstruktur. Diese Struktur wird anschließend genutzt, um mithilfe 
einer modellfreien ADP-Methode das optimale Regelgesetz zu erlernen. Konvergenzaussagen 
der iterativen Off-policy-Methode werden auf den hier vorgestellten Solltrajektorienfolgerege- 
lungsfall übertragen. Simulationsergebnisse, die den prädiktiven Charakter der vorgestellten 
Methode offenbaren, und eine anschließende Diskussion runden diesen Abschnitt ab. 


3.3.1 Problemdefinition 


Betrachtet werde ein lineares, zeitdiskretes System 
Ceti = Ax;, + Buk (3.80) 


mit den diskreten Zeitschritten k € N>o, dem Zustandsvektor x, € R” und dem Eingangs- 
vektor u; € RP. Es wird angenommen, dass das System (A, B) steuerbar ist, jedoch seien 
A € R”*” und B € R”*? unbekannt. 


{k} 
r,soll,z 
schauhorizont mit einer Lange von ny Zeitschritten gegeben, wobei i den Zeitindex auf diesem 


In jedem Zeitschritt k sei der beliebige Sollzustandsverlauf x € R” auf einem Voraus- 
Vorausschauhorizont bezeichnet. Jenseits des Horizonts np werde der Sollzustandsverlauf 
zu 0 angenommen. Somit ergibt sich aus Sicht des Zeitschritts k insgesamt der Sollzustands- 
verlauf 


k ates 
{k} ah firi=k,...,k +m 
Pais ae oe (3.81) 
i 0, füri>k+nn. 
Das Ziel ist im Folgenden, ohne Kenntnis von A und B ein Regelgesetz zu bestimmen, 
{k} 


ri 


sodass der Systemzustand x; dem Solltrajektorienverlauf x, ;’ (3.81) optimal bezüglich des 


Gütefunktionals 


itt 
Pr (a: — 2)" Q (£i - £r) + ul Rus) 


oo 
Jy = > 5 
i=k 
oY (3.82) 
=: A (el Qei + ul Rui), 
i=k ee 
=T (Li, Ui, Er, i) =T; 
welches es zu minimieren gilt, folgt. Hierbei wird die Kurzschreibweise x, ; := atk} verwendet. 
Zudem bezeichnet e; = x; — £,, im Zeitschritt i die Abweichung des Systemzustands 
x; vom Sollzustand x, ;. Weiterhin sei Q € R”*", Q = Q™ > 0, eine symmetrische, 


positiv semidefinite Matrix, welche Abweichungen des Zustands x; vom Sollzustand £r; 
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bestraft. Zudem sei (A, C') detektierbar, wobei C so definiert ist, dass CTC = Q gilt. Der 
Stellaufwand wird durch die symmetrische, positiv definite Matrix Re R™*™, R = R' > 0, 
bestraft. Durch r; € R werden die Einschrittkosten bezeichnet und y € (0, 1] stellt einen 
Diskontierungsfaktor dart. 


Die Wahl des Kostenfunktionals (3.82) ist dabei wie folgt motiviert: Einerseits ist der Sollzu- 
standsverlauf üblicherweise nur begrenzt in die Zukunft bekannt (beispielsweise der Straßen- 
verlauf beim autonomen Fahren), daher wird ein endlicher Vorausschauhorizont np verwendet. 
Andererseits basiert die in Abschnitt 3.3.3 verwendete ADP-Methode auf einem Kostenfunktio- 
nal mit unendlichem Zeithorizont, wodurch eine effiziente Darstellung der Bellman-Gleichung 
ermöglicht wird (vgl. Bemerkung 2.1). Daher wird das Kostenfunktional (3.82) auf einem 
unendlichen Optimierungshorizont definiert, berücksichtigt dabei jedoch einen auf einem 
endlichen Vorausschauhorizont gegebenen Sollzustandsverlauf. Die nachfolgende Proposi- 
tion zeigt, dass für die gegebene Problemstellung ein eindeutiger optimaler linearer Regler 
existiert. 


Annahme 3.3 


Sei (A, B) steuerbar, Q = Q" = 0 und R = RT = 0, sowie (A, C) detektierbar mit 
(ON =O) 


Proposition 3.3 


Unter Annahme 3.3 existiert ein eindeutiger optimaler linearer Regler u* (£,) mit 
T 
Paj = [ak xT gy tkiT | der das durch (3.80)-(3.82) beschrie- 


r,k r,k+np 
bene optimale Solltrajektorienfolgeregelungsproblem löst. 


Beweis: 
Die zeitliche Propagation des Sollzustands r% in (3.81) kann durch 


rt 


KO oth) 
r,i r,i 
? 0 I ! 
: See Ee : , t=k,k+1,..., (3.83) 
{k} Onxn Onxnm, {k} 
Le itn tl =D Lr itn 
r,iiitnp 


wobei On, xn, eine nı X na Nullmatrix und Inn, eine nnp X nnp Einheitsmatrix bezeichnet, 
ausgedrückt werden. Der erweiterte Systemzustand 


T 
re aT {k}T {k}T 
Tki oS [æ Tri KER Lr itn ’ 


i=k,k+1,..., (3.84) 


6l Falls beschränkte Einschrittkosten r; vorliegen und diese für i — co zudem verschwinden, ist das Kostenfunk- 


tional J, selbst für y = 1 endlich. Im Fall nicht-verschwindender aber beschränkter Einschrittkosten r; sorgt 
y < 1 dafür, dass Jọ endlich ist (vgl. [SB18, Abschnitt 3.3]). Nicht-verschwindende Einschrittkosten r; treten 
beispielsweise auf, wenn Stellenergie benötigt wird, um das System im Zustand O zu halten. 
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folgt somit der durch 


~ Ag, + Bu; | A On Ti B 
Tk i+ = {k} = : {k} + Ui 
‘ DTi tn, LOn (nyt) xn D r,i:itny On (nn+1) xp ; 
— e~_ 
=A or =B 
(3.85) 
gegebenen Dynamik. Zudem kann e} Qe; in (3.82) durch 
T 
Ti Ti 
air Q -Q Onxnn, aif 7 =, 
el Qe; = : -Q Q Onxnny : = Ep Q&Er.; (3.86) 
{k} Onnıxn Onn, xn Onn, xnn, {k} 
Le itn, me Le itn, 


=Q 


ausgedrückt werden. Folglich lässt sich das durch (3.80)-(3.82) beschriebene Optimierungspro- 
blem als diskontiertes Standard-LQ-Optimierungsproblem mit y, A, B ; Q und R ausdrücken. 
Die gesuchte Aussage folgt analog zum Beweis von Satz 3.1. Hierbei wird genutzt, dass alle 
Eigenwerte von ,/7D im Koordinatenursprung und somit innerhalb des Einheitskreises lie- 
gen. 


Bemerkung 3.6 


Eine mögliche Alternative zur Annahme ait} = 0, Vi > k + m, in (3.81) ist, anzu- 
nehmen, dass der Sollzustand jenseits des Vorausschauhorizonts der Länge nn auf einen 
{ky ott) Vi>ktn, 


konstanten Wert # 0 gesetzt wird. Falls beispielsweise x, ; Be 


gewählt wird, folgt für D in (3.83) 


Dani ee) Man =i 
D = |Onxn Onxn(n—1) He : (3.87) 


Onxn ee) Ha 


Fir y < 1 bleibt die Aussage von Proposition 3.3 dann weiterhin bestehen. Die Lösungen 
dieser beiden Formulierungen nähern sich für kleiner werdende Diskontierungen y und 
große Vorausschauhorizonte np einander an. 
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Bemerkung 3.7 


Der Beweis von Proposition 3.3 offenbart, dass die Solltrajektoriendarstellung ADP- 
kompatibel gemäß Definition 3.1 ist. Hierbei ist 


P 
Ge [at ay eT | (3.88) 


r,k+nn 
außerdem gilt 


Pa) = [In Onxm] Ce (3.89) 


(vgl. (3.6)) und analog zu (3.7) 


Fe (Cr) = Dep. 


Der optimale Regler, der nach Proposition 3.3 existiert, soll, wie in der folgenden Problemdefi- 
nition zusammengefasst, ohne Kenntnis der Systemmatrizen A und B ermittelt werden. 


Problem 3.3 


Sei Uj, Uz .1,--- die Stellgrößensequenz, die das Gütefunktional J}, in (3.82) für ein 
durch (3.80) beschriebenes System minimiert. Zudem seien die Systemmatrizen A und 
B unbekannt. Finde u). = u* (xx), d. h. den optimalen Regler in Abhängigkeit von x, 


und Ly ,soll,k» Ly soll,k+15 +, Cr soll,k-+ny: 


3.3.2 Solltrajektorienabhangige Q-Function 


Die zugrunde liegende Idee zur Lösung von Problem 3.3 ist die Definition einer solltrajekto- 
rienabhängigen Q-Function, d.h. einer Zustands-Aktions-Solltrajektorien-Nutzenfunktion 
im Gegensatz zur üblichen Zustands-Aktions-Nutzenfunktion. Diese Q-Function wird derart 
konstruiert, dass die sie minimierende Stellgröße eine Lösung für Problem 3.3 darstellt. 


Im vorliegenden Abschnitt wird diese solltrajektorienabhängige Q-Function zunächst definiert, 
sowie deren analytische Lösung hergeleitet. Die analytische Lösung liefert wichtige Einblicke 
und beantwortet insbesondere die Frage einer geeigneten und möglichst effizienten Funk- 
tionsapproximation der Q-Function. Diese Funktionsapproximation wird in Abschnitt 3.3.3 
für einen modellfreien ADP-Ansatz benötigt, der den optimalen Regler ohne Kenntnis der 
Systemmatrizen A und B lernt. 


Zunächst werde der Fall eines endlichen Optimierungshorizonts der Länge K betrachtet, später 
erfolgt K — 00°. Die solltrajektorienabhängige Q-Function für einen Optimierungshorizont 
der Länge K sei wie nachfolgend gegeben definiert. 


62 Bei der nachfolgenden Notation ist eine Unterscheidung des Optimierungshorizonts K sowie des Vorausschau- 


horizonts ny des Solltrajektorienverlaufs wichtig. Zudem muss zwischen dem aktuellen Zeitschritt k, in dem 
sich das System befindet und von dem ausgehend das Optimierungsproblem gelöst werden soll, und der Zeit x 
auf dem Optimierungshorizont der Lange K unterschieden werden. 
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Definition 3.6 (Solltrajektorienabhängige Q-Function) 


Die solltrajektorienabhängige Q-Function für einen Optimierungshorizont der Lange K 
mit der Kurzschreibweise KO = Orre res Uden Deiere oog Diek) sei durch 
die Bellman-Gleichung 


k+K 


K, ei i—(k+c+1 
QO, =Phin bY ) yf ) Tilus 
i=k+K+1 


K 
=Tkte T Y OEN 


> 
Urtc+1 


Tan lern) (3.92) 


und ri =r (Li, Wi, Zr,i) wie in (3.82) definiert. Dabei bezeichnet k € N>o, x < K, die 
Zeit auf dem aktuellen Optimierungshorizont der Länge K, beginnend bei k. Zudem 
gelte £i = x} = 0, Vi > k + ny (siehe 3.81)).® 


seth 


Folglich beschreibt *Q,, die akkumulierten diskontierten Kosten vom Zeitschritt k + « bis 
zum Zeitschritt k + K, wenn die Stellgröße w;+.. im Zeitschritt k + « und anschließend die 
optimalen Stellgrößen u}, «+1; -- Ur, g» Welche die Kosten auf dem verbliebenen Horizont 
minimieren, verwendet werden. Dabei ist der Sollzustandsverlauf wie in (3.81) auf einem 
gleitenden Vorausschauhorizont der Länge np gegeben. Für das durch 


k+K 1 
K = i-k T T 
J= ) = (e!Qe; T Ru; 3.93 
k = Y 2 (el Qe r u, ru ) ( ) 
i= _— mam 


=P; 


definierte Kostenfunktional auf einem Optimierungshorizont der Lange K gilt das folgende 
Lemma. 


Lemma 3.3 


Die Stellgröße up, welche die solltrajektorienabhängige Q-Function #Q,, minimiert, stellt 
eine optimale Lösung u}, dar, die “J, minimiert. 


% Die Notation r;|,,~ meint, dass die optimale Stellgröße už in die Funktion r(-) nach (3.82) eingesetzt wird. 


Analog folgt “Q etd 


g er - K, 
un durch die Verwendung von ug +.+1 = Už 41 in Qer 
e+e 
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Beweis: 
Aus (3.93) und 


ver K 
min = R 
Uk Qo klu TI Q1lus, 
k+K 
— K = i—k 
anG = T lo (3.94) 
i=k 
folgt 
k+K 
j i—k K, 
= ilu = = 3.9 
bike es Jr 2 Y ri u; Qolu; ( 5) 
tS 
Für den Grenzübergang 
lim “J, = Jk (3.96) 
K-00 


folgt Ją nach (3.82). Mit der Q-Function er nach Definition 3.6 und als Resultat von Lem- 
ma 3.3 lässt sich Problem 3.3 daher in die folgende äquivalente Problemstellung umformulie- 
ren. 


Problem 3.4 

Seien die Systemmatrizen A und B unbekannt. Im Zeitschritt k sei das System 
im Zustand £k, zudem sei der Sollzustand auf einem Horizont der Länge nn durch 
Lyk, Lrk+1)--+;Lrk+n, gegeben. Finde u}, = u“ (&,), sodass die Q-Function 


Qo := Ama, (3.97) 


K-x 


minimiert wird. 


Zunächst werde angenommen, dass die Systemmatrizen A und B bekannt sind, um die 
analytische Lösung von Qo, wie im nachfolgenden Satz 3.4 gezeigt, zu untersuchen. Im 
nächsten Schritt wird dann eine iterative ADP-Methode verwendet, um ohne Kenntnis von A 
und B, basierend auf dem TD-Fehler, die optimale Q-Function und das optimale Regelgesetz 
zu ermitteln. 
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Satz 3.4 (Analytische Lösung von *Q,) 


Für K > ny ist die zum Gütefunktional ER, in (3.93) gehörende Q-Function “Qo (vgl. 
Definition 3.6) durch 


Ir,k+nn 
0 


gegeben. Hierbei sei Hg = H} e RK +2r+P)x((K+2n4P) mit 


> gx, x 


UXy, K 


h 


h 


2.08 5.0 a Xr, KX, K 


Die genauen Werte von Hx folgen aus den Berechnungen im nachfolgenden Beweis. 


Beweis: 


Der Beweis ist in Anhang A.1 skizziert. 


Für K — oo sei H die nordwestliche ((nn + 2)n + p) x ((nn + 2)n + p)-Teilmatrix von Hx. 
Dann folgt wegen æ, ; = 0, Vi > k + np, 


1 
3 K, = 2 
Qo = lim “Qo = 5A (3.100) 
wobei %, := Ex u at, «+. æl i 
Yk k k r,k 1,k+ny 


Daher ist die Q-Function des Solltrajektorienfolgeregelungsproblems (vgl. Problem 3.3 bzw. 
Problem 3.4) quadratisch bezüglich des Systemzustands x», der Stellgröße ux und des Soll- 
zustandsverlaufs £r k,- . , £r,&-+n, und zudem vollständig durch die Matrix H parametriert. 
Somit stellt die hier präsentierte Q-Function Qo eine Verallgemeinerung der aus dem Regu- 
lationsfall [BYB94], [Lan97] bekannten Struktur der Q-Function dar. Weiterhin ist Qo nicht 
nur quadratisch, vielmehr weist H eine spezielle Struktur auf. Die Relevanz der aus Satz 3.4 
folgenden Struktur ist in der nachfolgenden Bemerkung zusammengefasst. 
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Bemerkung 3.8 


Satz 3.4 liefert Aussagen über die genaue analytische Lösung der vorgestellten sollzustands- 
abhängigen Q-Function. Die damit einhergehende Erkenntnis über die exakte Struktur 


der Q-Function ermöglicht eine effiziente Wahl eines geeigneten Funktionsapproximators 
und erlaubt somit eine signifikante Reduktion der benötigten zu lernenden Gewichte (vgl. 
Lemma 3.4 und Lemma 3.5 sowie Abschnitt 3.3.5) bei der späteren ADP-Umsetzung. 


3.3.3 Modellfreies Erlernen der Q-Function 


Im Folgenden wird die Q-Function, die explizit vom Sollzustandsverlauf auf einem gleitenden 
Vorausschauhorizont der Länge n, abhängt, ohne Kenntnis der Systemmatrizen A und B 
gelernt. Konkret wird dabei H (vgl. (3.100)) aus Zustandsübergängen und damit verknüpften 
Einschrittkosten ermittelt. 


Die optimale Stellgröße uj, = u“ (&.), die für x = 0 und K — oo äquivalent zu (A.17) ist, 
kann dann, wie im nachfolgenden Korollar gegeben, direkt aus H bestimmt werden. Dabei 
stellt (A.18) sicher, dass uj, tatsächlich die Q-Function Qo minimiert. 


Korollar 3.1 (Optimaler Regler in Abhängigkeit von H) 


Aus Lemma 3.3 und Satz 3.4 folgt direkt, dass die nach Problem 3.4 optimale Stellgröße 
im Zeitschritt k durch 


gegeben ist. 


Im Gegensatz zu bestehenden ADP-Reglern (vgl. Abschnitt 2.2) bezieht das optimale Regelge- 
setz (3.101) den exakten Sollzustandsverlauf £; k+1, - - - ‚ Lr,k+n, auf einem Vorausschauhori- 
zont der Lange np explizit ein und ist daher für flexible Solltrajektorienverläufe geeignet. 
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Bemerkung 3.9 


Nach [Ku£72, Theorem 8] folgt, dass das optimale Regelgesetz u* (&) aus Proposition 3.3 
das fiktive System $ 7 
Er+ı = (VAL. + /VBy (Tp) (3.102) 


stabilisiert. Im Fall y = 1 folgt daraus direkt, dass das geregelte System 


Hy k+1 
Tk+1 = (A- BK) a, — BK; : (3.103) 


ref 


Ir,k+ny 


für beschränkte Sollzustandsvorgaben £r k+1,- - - , £r,k+n, Referenz-Zustands-stabil 
nach Definition 3.5 ist. Für y < 1 muss, analog zu Abschnitt 3.2.4, überprüft wer- 
den, ob sämtliche Eigenwerte von A — BK, im Inneren des Einheitskreises liegen. Falls 
A und B nicht explizit bekannt sind, kann hierzu anhand der Matrix H aus (3.99) das 
durch Satz 3.3 gegebene hinreichende Kriterium verwendet werden. 


3.3.3.1 Funktionsapproximation der erweiterten Q-Function 


Um die Q-Function datenbasiert und ohne explizite Kenntnis der Systemmatrizen A und B 
zu lernen, wird Qo durch einen Funktionsapproximator (vgl. Abschnitt 2.1.3) parametriert. 
Anschließend wird der quadratische TD-Fehler genutzt, um eine Value Iteration (vgl. Ab- 
schnitt 2.1.4.2) durchzuführen, deren Resultat die geschätzten optimalen Q-Function-Gewichte 
sowie das zugehörige optimale Regelgesetz darstellt. Hierzu sei die geschätzte Q-Function Qo 
durch eine Summe gewichteter Basisfunktionen gegeben: 


Qo = wo (xx, Uk, Lr ky +s Br kin,) = THY). (3.104) 


Dabei stellt w € R” den zu schätzenden Gewichtsvektor dar und @ : R(™+2)"+? — RP ist 
ein Basisfunktionsvektor. Im Gegensatz zu klassischen Q-Functions bezieht Ôo in (3.104) somit 
explizit den durch &, x, Lr,k+1,- - - , Er,k+n, beschriebenen Solltrajektorienverlauf ein. Das 
nachfolgende Lemma besagt, dass die Q-Function Qo mithilfe quadratischer Basisfunktionen 
exakt durch Qo repräsentiert werden kann. 


Lemma 3.4 
Mit 


h = = ((nm +2)n +p) ((nn +2)n +p + 1) - (n’(2mm — 1) + pn) (3.105) 


quadratischen Basisfunktionen @ = [61 50% on] T existiert ein optimaler Gewichts- 


vektor Ùw = w*, sodass Ge = Qo gilt. 
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Beweis: 
Aufgrund der Symmetrie von Hx in (3.99) und der darin auftauchenden Nullen weist H 
maximal h nicht-redundante Elemente auf, wobei h durch (3.105) gegeben ist. Für h =1,...,h 


werden quadratische Basisfunktionen, deren Elemente die Form 


A= ee i (3.106) 
Ziki für i = j, 

aufweisen, definiert. Hierbei indiziere 7, j die entsprechenden nicht-redundanten Elemente 

von H, %, sei wie in (3.100) definiert und 4%, ; bezeichne das i-te Element des Vektors Yy. 

Folglich ist Qo in (3.100) gerade dann äquivalent zu Qo in (3.104), wenn die Gewichte w,, 

i = 1,...,h, identisch zu den entsprechenden nicht-redundanten Elementen von H sind, 


d.h. wenn w = w* gilt. Oo 


Somit gibt h in Lemma 3.4 die maximal benötigte Anzahl an Basisfunktionen und zugehörigen 
zu lernenden Gewichten an, um Qo exakt parametrieren zu können. In der Anwendung liegen 
jedoch häufig dünnbesetzte Gewichtsmatrizen Q im Gütefunktional (3.82) vor. Daher kann 
die Anzahl der benötigten Basisfunktionen und somit die Dimension von w weiter reduziert 
werden. Hierfür wird die aus Satz 3.4 und dem zugehörigen Beweis resultierende Struktur von 
H, die auch ohne explizite Kenntnis der Zahlenwerte in A und B exakt bekannt ist, genutzt. 
Dies wird im folgenden Lemma näher ausgeführt. 


Lemma 3.5 
Falls die o-te Zeile und o-te Spalte von Q null ist, dann sind die 
+ o-te Spalte von hy, ‚Vi € {0,..., mn}, 


+ o-te Spalte von hyx, ‚Vi € {0,..., np} und 


« o-te Zeile und o-te Spalte von hx, ‚x, ;Vi,j € {0,..., mn} 


ebenfalls null. Folglich reduziert sich die Anzahl h der nicht-redundanten Gewichte in H, 
und somit die Dimension des zu schätzenden Gewichtsvektors w, zu 


(3.107) 


Hierbei wurde Axx, 4 = Q und Rx, oxo = —Q berücksichtigt, weiterhin bezeichnet q die 
Anzahl der Zeilen bzw. Spalten von Q, die null sind. 


Beweis: 
Die Aussage folgt direkt aus Betrachtung von (A.15) unter Berücksichtigung von (A.11)- 
(A.14). 
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Obwohl Lemma 3.5 sehr technischer Natur ist, ist die Kenntnis über die Dünnbesetztheit der 
Matrix H essenziell für die Implementierung effizienter ADP-Regler mit einer überschaubaren 
Anzahl h zu schätzender Elemente von w. Dank der genauen Kenntnis der spezifischen 
Struktur der analytischen Lösung von Qo, wie sie in Satz 3.4 und dessen Beweis hergeleitet 
wurde, genügen somit nach Lemma 3.5 h quadratische Basisfunktionen mit h nach (3.107), 
um Qo exakt zu parametrieren (vgl. Beispiel 3.1). 


Beispiel 3.1 (Reduzierung der Dimension h des Critic-Gewichts w) 


Tabelle 3.2 illustriert die Reduzierung der Dimension h des Critic-Gewichts w durch 
Lemma 3.4 bzw. Lemma 3.5 im Vergleich dazu, nur die Symmetrie der Matrix H zu 
berücksichtigen, für ein System zweiter Ordnung und ein System sechster Ordnung. 


System 1 System 2 
m= nE (wein) 
1 1 5 5 
100 10 100 
H symmetrisch 21115 2701 188191 
Lemma 3.4 20317 2011 181021 
Lemma 3.5 5259 146 5681 


Tabelle 3.2: Die Berücksichtigung der Struktur der Matrix H erlaubt bei den betrachteten Beispielsystemen 
eine signifikante Verringerung der Dimension h des zu schätzenden Gewichtsvektors w. 


Bemerkung 3.10 


Die zu lernenden Gewichte w hängen nicht von der Solltrajektorie ab. Somit verdeutlichen 
(3.104) und Lemma 3.5 auch, dass die vorgestellte Q-Function, die explizit vom Solltrajek- 
torienverlauf abhängt, über beliebige Solltrajektorien, die auf einem Vorausschauhorizont 
der Länge ny gegeben sind, generalisiert. 


3.3.3.2 Datenbasierter Lernalgorithmus der erweiterten Q-Function 


In diesem Abschnitt wird der aufeiner Value Iteration basierende ADP-Algorithmus vorgestellt, 
der die Gewichte W basierend auf der Minimierung des quadrierten TD-Fehlers und ohne 
Kenntnis der Systemmatrizen A und B adaptiert. Hierzu sei zunächst 


Qı = wo (k41, Uk4+1; Lr k+1) Ea Tr knn’ 0) 
= td (Iry) (3.108) 
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ur lt T T T T]T : r+64 Di 5 ; 
mit Yk = BR Uri regi 7 Tiktn, O ] definiert°“. Die geschätzte opti- 


basiert, werde zudem 
Uk+r 


male Stellgröße w;,,,,, die auf der geschätzten Q-Function ap 
durch 


ax val . A 
ty4, = arg min Qk 
Uk+r 


_ T T T T 
==K [Thar Deetetl -t¢ | (3.109) 


Uk+K 


mit K := DER [Aus hal tae | (vgl. (3.101)) definiert. Dabei sind durch hc ana- 
log zu (3.99) die Teilmatrizen von H gegeben, wobei H die auf i basierende Schätzung der 
Matrix H bezeichnet. Somit resultiert &% p = uj,,,. falls w = w* gilt und die optimale Reg- 


lermatrix K = K* ergibt sich, wenn H=H gilt. Basierend auf der Bellman-Gleichung (3.91) 
wird nachfolgend der TD-Fehler 6; (vgl. [Sut88]) definiert, der für Ùw = w* verschwindet. 


Definition 3.7 (TD-Fehler der solltrajektorienabhängigen Q-Function) 


Der TD-Fehler ö,,, d. h. der Approximationsfehler der Bellman-Gleichung (3.91), der 
aufgrund einer Abweichung des geschätzten Gewichts w von w* resultiert, sei durch 


Um die Schätzung der sollzustandsabhangigen Q-Function Ôo sowie die daraus resultierende 
geschätzte optimale Stellgröße a; zu verbessern, wird im Folgenden eine Value Iteration (vgl. 
Abschnitt 2.1.4.2) verwendet. Im Policy-Evaluation-Schritt wird die Gewichtsschätzung wl, 
die in der Iteration l die geschätzte Q-Function repräsentiert, angepasst. Im nachfolgenden 
Policy-Improvement-Schritt wird, ausgehend von der neuen Schätzung úl des Q-Function- 
Gewichts und der zugehörigen Matrix H", das Regelgesetz K”, wie in (3.109) gezeigt, 
adaptiert. Zur Berechnung von ô% in (3.110) wird ü,,,, benötigt, jedoch ist das optimale 


Gewicht w* a priori unbekannt. Daher wird zunächst w = 0 und axt = 0 initialisiert. 


Letzteres geschieht durch die Wahl von K [0] — 065. Im Policy-Evaluation-Schritt ist das Ziel, 


64 Für die in Bemerkung 3.6 beschriebene alternative Problemformulierung, welche ath} = ae 
Vi > k + ny, annimmt, müsste an dieser Stelle & (2r+1, Ur+1, Er,ktlı -o Lek mys Lr k+ny) verwendet 


r 
~ = [ar T T wits SET T 
und 9,41 = [Pha Uki Tees Ti ktn, El etm] gesetzt werden. 


6 Bei vorhandenem Vorwissen kann die Initialisierung zugunsten einer schnelleren Konvergenz entsprechend 


angepasst werden. 
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2 
eine neue Schätzung lt! zu erlangen, sodass (1) minimiert wird, wobei in Analogie 
zu (3.110) 
l a fl +i a fl 2 
el) - wT 6G) (3.111) 
gesetzt wird. In (3.111) sei ge = Te aes =at, , wobei ax aus (3.109) mit K = 


KU folgt. Mit w" € R” wie in Lemma 3.5 ergibt a dass sl mindestens zu M > h 
unterschiedlichen Zeitschritten betrachtet werden muss, um eine Least-Squares-Schätzung 
unter Nutzung von M Datentupeln durchführen zu können. Damit resultiert 


k 
2 
lt =argmin ), (a) ; (3.112) 
plti] 
w j=k—-M+1 
Es seien weiterhin 
® = [e (Drm) P) (3.113) 


und 
n [UT a (rl 
Tk-M+1 +Ù ' E Yk-M+2 
T : (3.114) 
re + yle (5) 
definiert. Falls die Anregungsbedingung 
Rang (PT) =h (3.115) 
erfüllt ist, existiert eine eindeutige Lösung wir, die (3.112) minimiert. Diese ist durch 


= (18) Tr (3.116) 


gegeben (vgl. [ÄW95, Theorem 2.1]). 


Der Policy-Improvement-Schritt ergibt sich dann aus der neuen Gewichtsschätzung wir 


und der zugehörigen Matrix H HN zu 


K+H = pl! Ka Aly ... pled (3.117) 


UXy,1 UXr np, 


(vgl. Korollar 3.1). Diese Iteration wird, bei festem Zeitschritt k, so oft wiederholt, bis sich wll 


nicht mehr signifikant ändert, d.h. wu | 


einen Schwellwert ey, unterschreitet. 
2 


Wenngleich die Q-Function zu der durch K u gegebenen Target Policy pel l (-), die in Form von 
ù axi i iny gl, nach (3.111) beriicksichtigt wird, ausgewertet werden soll, wurde bislang noch 
nicht diskutiert, welche Behavior Policy verwendet wird (vgl. Abschnitt 2.1.4.4). Die Behavior 


Policy stellt dabei die Stellgröße u, dar, die auf das System angewandt wird und welche 
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in den Ausdrücken ry und Y, in (3.111) auftaucht. Während die Target Policy die aktuelle 
Schätzung des optimalen Regelgesetzes darstellt, kann die Behavior Policy genutzt werden, 
um die in (3.115) gegebene Anregungsbedingung zu erfüllen. Während der Adaptionsprozess 
aktiv ist, sei 


Up, =Ù, =U +E (3.118) 


Dabei dient €,, ~ N (0; V) als Anregungsrauschen, welches den Systemzustand x, anregt. 
Zur Anregung des Sollzustandsverlaufs kann dieser ebenfalls durch additives Gaußsches 
Rauschen €,e überlagert werden, um bei einem während des Trainings möglicherweise ab- 
wechslungsarmen Sollzustandsverlauf dennoch ausreichende Anregung sicherzustellen. 


Der gesamte ADP-Algorithmus, der ohne Kenntnis der Systemmatrizen A und B lernt, einer 
auf einem gleitenden Vorausschauhorizont der Lange ny gegebenen, beliebigen Solltrajektorie 
optimal im Sinne des Giitefunktionals (3.82) zu folgen, ist in Algorithmus 3.2 gegeben. 


Algorithmus 3.2 ADP-Algorithmus mit Sollverlauf auf endlichem Vorausschauhorizont 


1: Initialisiere M, ù := w := 0, K” = 0 
2: for k = 0,1,2,... do 
3: wende die Stellgröße ar nach (3.118) auf das System (3.80) an 


4 if k+1 mod M = 0 then 

5 l:= 0, wl = w 

6: do 

7: Policy-Evaluation-Schritt: berechne wer! mit (3.112) 

8 Policy-Improvement-Schritt: berechne K UF mit (3.117) 
9: I=1+1 

10: while |! -w| > ew 

11: ® = ôl 

12: end if 

13: end for 


Bemerkung 3.11 

Die in Algorithmus 3.2 verwendete iterative Methode aus Policy-Evaluation- und Policy- 
Improvement-Schritt stellt eine Value Iteration dar. Dies manifestiert sich in der Definition 
von 6x in (3.111), wobei Qı auf w""| basiert und Qo auf w+) (vgl. (2.25)). 

Weiterhin gehört der Algorithmus zur Klasse der Off-Policy-Methoden (vgl. Ab- 
schnitt 2.1.4.4), da die Behavior Policy welt = al + £&, angewandt wird, während die 


zur Target Policy ar gehörende Q-Function gelernt wird. 
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3.3.3.3 Konvergenzanalyse des Lernalgorithmus 


In diesem Abschnitt wird die Konvergenz der geschatzten solltrajektorienabhangigen Q- 
Function Qo gegen die optimale Q-Function Qo untersucht. Konkret wird gezeigt, dass für 
l — oo die Konvergenz des Gewichts w" = w* und damit auch der Matrix Hl! > H folgt. 
Somit konvergiert die Value Iteration für die erweiterte sollzustandsabhängige Q-Function 


gegen das optimale Regelgesetz, d.h. K! — K* folgt. 


Die Konvergenzanalyse ist dabei wie folgt strukturiert: Zuerst wird gezeigt, dass die Value 
Iteration, d.h. die Iteration zwischen (3.112) und (3.117), äquivalent zu einer durch H u 
gegebenen Matrixfolge ist. Im zweiten Schritt wird bewiesen, dass diese Matrixfolge im Sinne 
von 0 x H" < Y nach oben beschränkt ist und zudem 0 < H" < H’! gilt. Daraus 
folgt die Konvergenz der Matrixfolge. Im letzten Schritt wird gezeigt, dass die konvergierte 
Folge die Bellman-Gleichung erfüllt und das zugehörige Regelgesetz optimal ist. 


Das nachfolgende Lemma stellt zunächst eine Erweiterung von [ATLAK07, Lemma 1] auf den 
Solltrajektorienregelungsfall dar und zeigt, dass die verwendete Value Iteration äquivalent zu 
einer Matrixfolge H U ist, 


Lemma 3.6 
Sei H”! = 0, R™’ = R > 0, Q7 = Q = 0 und (A, B) steuerbar. Die durch (3.112) 
und (3.117) beschriebene Value Iteration ist äquivalent zur Iteration 


He — G+yM(-K")' H"M(-K") (3.119) 


0 0 0 


wobei K = [Kl Ku TE Kt] = K(H") analog zu (3.117) aus H" folgt. 
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Beweis: 
Mit quadratischen Basisfunktionen &(-) (vgl. Lemma 3.4 und Lemma 3.5) ergibt sich 


1 = nget 
Ar ie Pie = LT (3.122) 


Daraus folgt aufgrund von y gu = |= M(- KN 


re to (a) = u G A EN d 6123) 
N 
—Hl+1] 


Aus (3.123), (3.113) und (3.114) folgt, dass (3.116) äquivalent zu 


igl ma a RR 
wt = (Tg) | eT 


soL Hy, 
= vecr 3.124 
pT) (PTS HG (3.124) 
——, pee 
=I 


ist®, wobei im letzten Schritt der Zusammenhang 


z? laa jsp o)! veer( H11), (3.125) 


K=k-M+1,k-M+2,...,k, genutzt wird. Da HU! eine symmetrische Matrix ist, 
die aus den nicht-redundanten Elementen von l+" gebildet wird, folgt aus (3.124) direkt, 
dass die Folge w", d.h. die Value Iteration, äquivalent zur Folge (3.119) ist. 


Das folgende technische Lemma wird für den Beweis von Lemma 3.8 benötigt. 


Lemma 3.7 
Sei H”! = 0, R™ = R > 0 und Q7 = Q = 0. Dann ist 


l 
pae SIR N e ee] WA (3.126) 


wobei K = K(H") analog zu (3.117) aus H! berechnet wird, die eindeutige 


Lösung, die 


gu = ul Hy, er (3.127) 


minimiert. 


66 Durch vecr(-) wird die symmetrische Matrix H [l] in einen Vektor überführt, d.h. es gilt vecr( H u) = wlll, 
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Beweis: 


Aufgrund von H = 0 > 0, R > 0 und Q > 0 folgt aus (3.119), dass H” = 0, Vl > 0. 

Weiterhin ist wegen R > 0 ersichtlich, dass nll > 0, Vi > 0, gilt. Weil aus pam = Odie 

Reglermatrix K u folgt und sich wegen hl > 0 zudem oon > Oergibt, gilt die Aussage 
k+r 


u 


von Lemma 3.7. 


Im Folgenden werde der durch 
ï 
F (nl, rt) =G+ ym (T") am (rc) (3.128) 


definierte Operator verwendet. Somit gilt nach (3.119) F (a" ; -KN) = HUY, 


Um zu beweisen, dass H [l nach Lemma 3.6 im Sinne von 0 <H y < Y nach oben beschränkt 
ist, wird zunächst das nachfolgende technische Lemma benötigt, das eine Generalisierung 
von [Lan97, Lemma B.1.1] auf die solltrajektorienabhängige Q-Function darstellt. Die Kenntnis 
der analytischen Struktur von H (vgl. Satz 3.4) ist hierbei wesentlich für die Erweiterung auf 
den Solltrajektorienfall. 


Lemma 3.8 

Sei W" eine beliebige Matrixfolge, wobei W" dieselbe Dimension wie K besitze, 
zudem gelte 0 < H” < Z, Dann ergibt sich mit dem in (3.128) definierten Operator 
F(-) für die Matrixfolgen 


zi. pF (z, w") (3.129) 


g (H", -K (#")), 


o < alt < g+] 


Beweis: 
Der Beweis ist in Anhang A.2 gegeben. 


Im nächsten Schritt wird die Beschränktheit von H™! im Sinne von 0 < H”! < Y gezeigt. 
Für den Regulationsfall, d. h. für eine Q-Function ohne Solltrajektorienvorgabe, wurde diese 
Beschränktheit von Landelius [Lan97, Lemma B.1.2] bewiesen. Im Gegensatz dazu wird im 
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Folgenden der allgemeinere Solltrajektorienregelungsfall, d. h. die durch (3.119) beschriebene 
Iteration, betrachtet. 


Lemma 3.9 
Sei (A, B) steuerbar und H" die durch (3.119) beschriebene Folge mit H'! = 0. Dann 


existiert eine Matrix Y , sodass 0 < H (! XY gilt. 


Beweis: 
Siehe Anhang A.3. 


Nach dieser Vorarbeit kann schließlich das Hauptergebnis der Konvergenzanalyse formuliert 
werden. Dieses besagt, dass die Value Iteration gegen das optimale Gewicht w* und somit 
gegen die optimale Reglermatrix K* des Solltrajektorienfolgeregelungsproblems, das durch 
Problem 3.3 gegeben ist, konvergiert. 


Satz 3.5 
Sei R’ = R > 0, Q7 = Q > 0, (A, B) steuerbar und w" = 0, d.h. H = 0. 


Dann führt im Fall einer erfüllten Anregungsbedingung (3.115) die durch (3.112) und 
(3.117) gegebene Value Iteration zu H H, d.h. zur Konvergenz von w IQ w* 
und K” + K*. 


Beweis: 
Der Beweis erfolgt mittels vollständiger Induktion. Nach Lemma 3.6 ist die betrachtete Value 
Iteration äquivalent zur Folge H y (vgl. (3.119)). Mit Z l0] = AM und 


zul = F(z", -K (HN) (3.132) 


folgt 
0< H”! < Zu (3.133) 


aus Lemma 3.8. Aufgrund von H = O und mit G aus (3.120) folgt H™ = G > 0 und somit 
der Induktionsanfang 


H™ — zO > 9, (3.134) 
Die Induktionsbehauptung sei durch 
HNl-zelso (3.135) 
gegeben. Es gilt 
H+ z0 4M (-K(#"))' (H"- z1) M(-K(H")) > 0. (6.136) 


Daraus folgt 
0< H” < Zl HH, (3.137) 
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Da die Matrixfolge H nach Lemma 3.9 durch Y nach oben beschränkt ist und wegen (3.137) 
0< H” =A (3.138) 
gilt, existiert der Grenzwert H [oo], d.h. die Value Iteration konvergiert zu 
HI] = G+7M(-K(H))) "HM (-K(H™)). (3.139) 


Weiterhin minimiert -K (H 2 nach Lemma 3.7 op. Daraus ergibt sich 


lim 6! = rp +7971 Hg, -— oF F(H™,-K(a™!)) Ù = 0. (3.140) 


loo 


Somit ist die Bellman-Gleichung für HI] erfüllt und es folgt H”! — H®! = H, d.h. 
ü + w* und K” K*. 


3.3.4 Ergebnisse 


Im Folgenden wird der vorgestellte ADP-basierte Solltrajektorienfolgeregler, der dem Sollzu- 
standsverlauf auf einem gleitenden Vorausschauhorizont der Länge np optimal im Sinne von 
Problem 3.3 folgt, und der ohne explizite Kenntnis der Systemmatrizen A und B trainiert wird, 
simulativ ausgewertet. Die Ergebnisse werden zudem mit einer ADP-Methode aus der Literatur 
verglichen. Die Anzahl der Datentupel werde zunächst zu M = 1,2h gesetzt, wobei h jeweils 
aus (3.107) folgt. Die Abbruchbedingung wird zu eg = 107° gewählt, die Diskontierung 
zunächst zu y = 0,9 gesetzt und der Vorausschauhorizont, auf dem der Sollzustandsverlauf 
gegeben ist, zu nn = 10 gewählt. Der Anfangszustand des Systems sei jeweils £o = 0. 


3.3.4.1 Simulationsbeispiele 


Betrachtet werden im Folgenden zwei Simulationsbeispiele. Das erste System ist ein rota- 
torisches Feder-Masse-Dämpfer-System zweiter Ordnung, das zweite System ein lineares 
Einspurmodell eines vorderradgelenkten Fahrzeugs der Ordnung sechs. Beide Systemmodel- 
le resultieren aus einer Tustin-Approximation eines zeitkontinuierlichen Modells mit einer 
Abtastzeit von 1s. 


System 1 - Feder-Masse-Dämpfer-System 
Die zeitdiskrete Zustandsraumrepräsentation des rotatorischen Feder-Masse-Dampfer-Systems 
ist durch 


0,99 0,9 0,01 
Tk+1 = Be 1 Tk + Fea Uk (3.141) 
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gegeben. Die Stellgröße ux stellt dabei ein Drehmoment dar, welches auf das System wirkt. 
Weiterhin seien 


Q = diag(100, 0) und R = 1 (3.142) 


die Parameter des Gütefunktionals (3.82). Somit liegt der Fokus darauf, den Systemzustand 
x, einem Sollwinkel x1 ref = Qref, der auf einem gleitenden Vorausschauhorizont der Lange 
rm = 10 gegeben ist, folgen zu lassen. 


Für dieses Optimierungsproblem liegen für y = 0,9 die Systempole des optimal geregelten 
Systems alle im Einheitskreis, da (A — BK.) einen doppelten Eigenwert bei 0,7503 auf- 
weist. Das hinreichende Stabilitätskriterium nach Satz 3.3 (vgl. Bemerkung 3.9) ist wegen 
b, = 0,7067 < 0,9 = y ebenfalls erfüllt, aus einer korrekt gelernten Q-Function lässt sich 
für dieses Szenario somit auch ohne explizite Kenntnis der Systemmatrizen A und B auf 
Stabilität des geregelten Systems schließen. 


Während des Trainingsvorgangs wird für dieses Simulationsbeispiel für die erforderliche 
Anregung (vgl. (3.115)) der additive Rauschterm €, der Stellgröße in (3.118) mit einer Varianz 
von Y = 0,01 gewählt. Außerdem wird während des Trainings mittelwertfreies weißes 
Gaußsches Rauschen Eyer ~ N (0; 0,01) zum Solltrajektorienverlauf addiert. 


System 2 - Lineares Einspurmodell 
Das zweite betrachtete Beispielsystem ist ein lineares Einspurmodell sechster Ordnung (vgl. 
[Fla16, Anhang B]). Dieses ist durch 


0,633 —0,035 0 0 —1,4-10-4 —4,5 -1078 297510 
2,445 -0,771 00 51-103 0,164 9,9- 10-3 
| 1,222 015 10 26-103 0,082 4,9: 10-3 
k+1 | 15,890 0,794 20 1 0,024 0,774 T] goa |% 
6,197 —0,323 0 0 —0,925 —1,587 0,145 
3,099 —0,161 0 0 0,038 0,206 0,073 
(3.143) 


gegeben. Die physikalische Bedeutung der Stellgröße u, und des Systemzustands x, ist in 
Anhang A.4 erläutert. Da im Folgenden die Abweichung von £4 rer = Yref bestraft werden soll, 
werde 


Q = diag(0, 0, 0, 100, 0, 0) und R = 1 (3.144) 


gewählt. 


Auch bei diesem Beispiel liegen für y = 0,9 die Systempole des optimal geregelten Systems 
im Inneren des Einheitskreises. Konkret ergeben sich für (A — BK) doppelte Eigenwerte 
bei 0,4834 und 0,7136 sowie einfache Eigenwerte bei 0,0526 und 0,8675. Obwohl das optimal 
geregelte System somit auch für y = 0,9 stabil ist, liefert das durch Satz 3.3 gegebene lediglich 
hinreichende Kriterium in diesem Fall wegen b, ~ 1 keine eindeutige Aussage. Daher soll 
für dieses Beispiel im Folgenden zusätzlich zum Fall y = 0,9 noch der Fall y = 1 betrachtet 
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werden. Für y = 1 hat (A — BK) doppelte Eigenwerte bei 0,4556 und 0,7136 sowie 
einfache Eigenwerte bei 0,0507 und 0,8675. 


Zur Anregung (vgl. (3.115)) wird der additive Rauschterm &, mit V = 0,03 in (3.118) ver- 
wendet. Zudem wird während des Trainingsvorgangs mittelwertfreies weißes Gaußsches 
Rauschen Eyer N (0; 0,01) zum Solltrajektorienverlauf addiert. 


3.3.4.2 Auswertungsmethodik 


Im Folgenden bezeichne (yer die Sollwinkeltrajektorie für Beispielsystem 1 und yref die Soll- 
trajektorie für Beispielsystem 2. Die im Rahmen dieser Arbeit vorgestellte ADP-Solltrajek- 
torienfolgeregelungsmethode, die den exakten Solltrajektorienverlauf auf einem gleitenden 
Vorausschauhorizont der Länge np in die Q-Function integriert, soll mit Literaturmethoden, 
die annehmen, der Solltrajektorienverlauf werde durch Fler) = Fie®£r, k beschrieben, 
verglichen werden. Um diesen Vergleich zu ermöglichen, wird für die während des Trainings- 
vorgangs verwendeten Solltrajektorien 


ref = Yref = [1 0] Lyk, (3.145) 
mit 


a _ | 0,9801 0,1987] _ 
HEE | 0,1987 0,9801| "5 


Sg eh 
Free 


(3.146) 


angenommen. Zu Vergleichszwecken wird sowohl ein ADP-Regler entsprechend Algorith- 
mus 3.2 und ein ADP-Regler entsprechend [LLHW16], [KLM* 14], nachfolgend als Exosystem- 
Methode bezeichnet, trainiert. Der Exosystem-Ansatz wird folglich beziiglich des erweiterten 
Systems 


x AE lee (3.147) 
Pri =O m,” Uk, . 


ees T a 
mit Tk = [x] Try] trainiert. 


Nach Abschluss des Trainingsprozesses wird der Solltrajektorienverlauf ayer = Yref deut- 
lich variiert, um die Generalisierungsfähigkeit der ADP-Regler auf von (3.146) abweichende 
Solltrajektorienverläufe zu untersuchen. Die Bewertung der Ergebnisse geschieht dabei auf 
zwei Arten. Einerseits wird nach Beendigung des Trainingsvorgangs der Trajektorienverlauf, 
der sich unter Verwendung der gelernten ADP-Regler ergibt (bezeichnet durch aapp und 
Yapp bzw. ŒADP,Exosystem UNd YADP Exosystem), mit dem Trajektorienverlauf &opt bzw. Yopı, der 
sich aus der optimalen analytischen Lösung nach Satz 3.4 ergibt, verglichen. Die mittlere 
quadratische Abweichung wird dabei mit agus bzw. yrms bezeichnet. Andererseits werden die 
durch Algorithmus 3.2 gelernten Gewichte w der in dieser Arbeit vorgestellten ADP-Methode 


88 3 Zeitdiskrete ADP-basierte Solltrajektorienfolgeregelung 


mit der optimalen Lösung w*, d.h. den zu Satz 3.4 und Lemma 3.5 korrespondierenden Ge- 
wichten, verglichen‘’. Zugunsten einer Vergleichbarkeit für unterschiedliche Wertebereiche 
von Ww wird der Absolutfehler jedes Gewichts bezüglich des größten absoluten Gewichts 


max; k w*} ; | normiert. Der Mittelwert dieser normierten Absolutfehler über alle h Gewichte 


wird durch 


1a Ho} - {w} 


as; (3.148) 
i=1 Max; tu}; 
gegeben, der Maximalwert des normierten Absolutfehlers hingegen durch 
Bats a OE (3.149) 


ie{l,..h} max; tur}; 


3.3.4.3 Simulationsergebnisse 


Die Trajektorienabweichungen arns (System 1) und yrms (System 2) von der optimalen Lösung 
sowie die Schätzfehler er und ey der Gewichte w sind in Tabelle 3.3 gegeben®. 


Die resultierenden Trajektorienverläufe des optimalen Reglers sowie der beiden ADP-Ansätze 
sind in Abbildung 3.7 (Beispielsystem 1) und Abbildung 3.8 (Beispielsystem 2 mit y = 0,9) 
gegeben. Für y = 1 ergibt sich für System 2 ein nahezu identischer Verlauf zur Diskontierung 
y = 0,9, dieser ist der Vollständigkeit halber in Anhang A.5 (Abbildung A.2) gegeben. Die 
vertikale, punkt-gestrichelte Linie gibt hierbei den Zeitschritt an, abdem k > M gilt und somit 
die Value Iteration nach Algorithmus 3.2 durchgeführt wird. Diese erreicht nach 42 (System 1), 
43 (System 2, y = 0,9), bzw. 67 (System 2, y = 1) Iterationen die durch ey, beschriebene 
Abbruchbedingung. Der Solltrajektorienverlauf a,er bzw. Yıer ist in Grau dargestellt. Die 
schwarze, gestrichelte Linie zeigt den Verlauf der optimalen Lösungen «opt bzw. Yopt. In Rot 
ist der Verlauf gezeigt, der sich für die in dieser Arbeit vorgestellte ADP-Methode ergibt, 
wohingegen in Blau die Ergebnisse der Vergleichsmethode gezeigt sind. 


Die Gewichtsfehler e; und ey in Tabelle 3.3 lassen erkennen, dass die optimalen Q-Function- 
Gewichte wW bei beiden Systemen erfolgreich gelernt werden. Die Abnahme der Fehlermaße 
er und en während der Value Iteration nach Algorithmus 3.2 ist in Abbildung 3.9 (System 1), 
Abbildung 3.10 (System 2 mit y = 0,9) und Abbildung A.3 (System 2 mit y = 1) gezeigt. 


67 Es sei anzumerken, dass die zu Vergleichszwecken verwendete Exosystem-Methode nicht w* aus Satz 3.4 und Lem- 


ma 3.5 lernt, sondern die optimalen Gewichte, welche mit (3.147) korrespondieren. Daher werden die nachfolgend 
vorgestellten Bewertungsmaße nur für die in dieser Arbeit vorgestellte ADP-Solltrajektorienregelungsmethode 
berechnet, um zu bewerten, ob ein erfolgreicher Trainingsvorgang vorliegt. 

An dieser Stelle sei anzumerken, dass die Exosystem-Methode, welche als Vergleichsalgorithmus verwendet wird, 
aufgrund der Wahl von (3.146) für y = 1 ungeeignet ist, da der durch F',er beschriebene Solltrajektorienverlauf 
nicht abklingt, da F',er zwei Eigenwerte auf dem Einheitskreis der komplexen Ebene aufweist. 


68 
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System 1 


ADP ADP, Exosystem 


arms 2,1- 10-3 1,55 

€ 6,2 A 1075 = 

en 2,1. 10-3 - 

System 2 
ADP ADP ADP, Exosystem 

Q = 0,9) (y= 1) (Q = 0,9) 
YRMS 6,5: 107° DA * 1,00 
e 9,5- 1076 4,2- 1075 - 
en 1,0: 10-3 4,5- 107 — 


Tabelle 3.3: Trajektorienfolgefehler und Gewichtsfehler der betrachteten Simulationsbeispiele. 


Qref — AADP --- Qopt —— Capp, Exosystem ='='" Gewichtsupdate 


—10 


l | | l l | | 
0 100 200 300 400 500 600 700 800 
Zeit k 


Abbildung 3.7: Ergebnis der ADP-Solltrajektorienregelung für System 1 (rotatorisches Feder-Masse-Dämpfer-System 
zweiter Ordnung). 
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Ye ———YADP --- Yopt — YADP, Exosystem batt a) Gewichtsupdate 


10 


| | | | | | | | 
0 100 200 300 400 500 600 700 800 
Zeit k 


Abbildung 3.8: Ergebnis der ADP-Solltrajektorienregelung für System 2 (lineares Einspurmodell sechster Ordnung) 
für y = 0,9. 


0 5 10 15 20 25 30 


Iteration | 


Abbildung 3.9: Gewichtsfehlerverlauf wahrend der ersten 30 Iterationen des Lernvorgangs fiir System 1 (rotatori- 
sches Feder-Masse-Dämpfer-System zweiter Ordnung). Hierbei stellt er (3.148) den Mittelwert und 


ey (3.149) das Maximum des elementweisen absoluten Fehlers von w, jeweils durch max; tw } j | 
normiert, dar. 


3.3.4.4 Einfluss von Messrauschen 


Bisher wurde, wie in der ADP-Literatur üblich, angenommen, dass exakte Messungen des 
Systemzustands x; vorliegen. Wenngleich der Fokus der vorliegenden Arbeit auf einer Formu- 
lierung einer Q-Function, die den Solltrajektorienverlauf einbezieht, und nicht auf robusten 
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Iteration | 


Abbildung 3.10: Gewichtsfehlerverlauf wahrend des Lernvorgangs fiir System 2 (lineares Einspurmodell sechster 
Ordnung) für y = 0,9. Hierbei stellt ey (3.148) den Mittelwert und ey (3.149) das Maximum des 


elementweisen absoluten Fehlers von , jeweils durch max; fw" } j | normiert, dar. 


ADP-Methoden liegt‘”, soll im Folgenden kurz der Einfluss unbekannten Messrauschens”® vy 
untersucht werden. Hierzu werde angenommen, dass dem ADP-basierten Regelungsansatz 
lediglich ein gemessener Systemzustand 


Er = Zk FÜR (3.150) 


zur Verfügung steht, wobei vg € R” mittelwertfreies weißes Gaußsches Rauschen darstellt. 


In dieser Situation werde der Regler für System 1 (3.141) mit y = 0,9, M = 10h (mit h wie 
in (3.107)) und für np = 10 trainiert. Während des Trainings werden hierbei unterschiedliche 
Signal-Rausch-Verhältnisse SNR, (£k, Vk) und SNR, (&,,x, Vk) des Zustands x; und Sollzu- 
stands x,,, im Vergleich zum Messrauschen v% betrachtet. Die Abweichung des gelernten 
Reglers K vom optimalen Regler K* ist in Tabelle 3.4 gegeben. Die resultierenden Trajektori- 
enverläufe sowie deren Standardabweichungen (std(-)) für unterschiedliche Rauschamplituden 
sind in Abbildung 3.11 gezeigt. Je stärker das Anregungsrauschen im Vergleich zum Mess- 
rauschen dominiert, desto ähnlicher ist der gelernte Regler dem optimalen Regler und desto 
besser folgt der Winkel a der Solltrajektorie. 


6 Für erste Ansätze zu robusten ADP-Methoden, welche Gegenstand der aktuellen Forschung sind, sei auf [BJD10], 


[JJ14c], [NLW* 19], [OZLY19], [WHL17], [WY18] und [ZCZL11] verwiesen. 
Dabei ist das unbekannte Messrauschen nicht mit dem Anregungsrauschen £;, in (3.118), welches bekannt ist 
und daher korrekt in den TD-Fehler einbezogen wird, zu verwechseln. 
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SNR,=SNR,  ||K* — Kl, 


IK" - 


Kl 


IK*Il; 


10dB 6,61 
20 dB 1,61 
30dB 0,39 
40 dB 0,15 
50dB 4,75 : 107? 
60 dB 1,36 - 10-2 


0,40 


9,66 - 
2,37- 
8,84- 
2,84- 
-1074 


8,13 


107? 
Km 
1078 
Ne 


Tabelle 3.4: Abweichungen der gelernten Regler vom optimalen Regler für unterschiedlich starkes Messrauschen. 
Die angegebenen Fehler stellen über 20 Trainingsdurchgänge gemittelte Werte dar. 


Qrf — Q 


std(a) 


—2 |- 
g -4 - 
ll 
—6 | _| 
| l 5 
0 50 100 150 0 50 100 150 
Zeit k Zeit k 
(a) SNR, = SNR,, = 10 dB (b) SNR, = SNR,, = 20 dB 
II 
8 
5 l l 5 ji 
0 50 100 150 0 50 100 150 
Zeit k Zeit k 
(c) SNR, = SNR,, = 30 dB (d) SNR, = SNR,, = 40 dB 


Abbildung 3.11: Trajektorienfolgeergebnisse für ADP-Regler, die bei unterschiedlich starkem Messrauschen trainiert 


und validiert wurden. 
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3.3.5 Diskussion der Simulationsergebnisse 


Für den in dieser Arbeit vorgestellten ADP-Solltrajektorienfolgeregler, der den Sollzustands- 
verlauf auf einem gleitenden Vorausschauhorizont explizit einbezieht, wurde die Konvergenz 
gegen die optimale Lösung unter einer geeigneten Anregung nach (3.115) in Abschnitt 3.3.3.3 
formal gezeigt. Insbesondere offenbaren Abbildung 3.9, Abbildung 3.10 und Abbildung A.3, 
dass die geschätzte solltrajektorienabhängige Q-Function Qo für die untersuchten Simula- 
tionsbeispiele innerhalb weniger Iterationen gegen die optimale Q-Function Qo konvergiert. 
Aufgrund des optimalen Verhaltens entsprechend des durch (3.82) gegebenen Gütefunktionals 
und des Vorausschauhorizonts der Länge np weist der gelernte Regler des Weiteren prädikti- 
ves Verhalten auf und reagiert beispielsweise auf Sprünge bereits vor der Veränderung des 
aktuellen Sollzustands. Dies ist in Abbildung 3.12, welche die Detailansicht eines Sprungs aus 
Abbildung 3.7 zeigt, zu sehen. 


Die Betrachtung von aps (System 1) bzw. yrms (System 2) sowie die Abbildungen 3.7, 3.8 
und 3.12 verdeutlichen zudem, dass der in dieser Arbeit präsentierte ADP-Solltrajektorienfol- 
geregelungsansatz erfolgreich und ohne weitere Modifikation auch Solltrajektorien, die von 
den während des Trainingsvorgangs verwendeten Trajektorienverläufen stark abweichen, 
folgen kann. Diese fundamentale Eigenschaft, welche die Verwendung flexibler und während 
des Trainingsvorgangs nicht vorliegender Solltrajektorien ermöglicht, ist insbesondere auf die 
explizite Abhängigkeit der gelernten Q-Function von einem beliebigen Solltrajektorienverlauf 
auf einem gleitenden Vorausschauhorizont der Länge np zurückzuführen. Im Gegensatz dazu 
sind existierende ADP-Methoden, die annehmen, der Sollzustandsverlauf folge der durch 
fa, beschriebenen Dynamik (beispielsweise [LLHW16] und [KLM*14]), zwar gut geeignet, 
solange diese Annahme erfüllt ist (wie dies beispielsweise in Abbildung 3.7 für 100 < k < 200 


Qref —— QADP ~--~- Qop = CADP, Exosystem 


| 
410 420 430 440 450 460 470 480 490 500 510 520 
Zeit k 


Abbildung 3.12: Detailansicht von Abbildung 3.7 (System 1), um das prädiktive Verhalten des vorgestellten ADP- 
Ansatzes aufgrund der Verwendung des gleitenden Vorausschauhorizonts der Lange np zu visuali- 
sieren. 
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der Fall ist), jedoch nimmt deren Güte ab, sobald der Solltrajektorienverlauf von (3.145)- 
(3.146) abweicht. Dieses Verhalten ist wenig verwunderlich, da bei diesen Reglern implizit 
die während des Trainingsvorgangs zugrunde liegende Exosystemdynamik auf die gelernte 
Q-Function Einfluss nimmt. 


Besonders erwähnenswert ist auch, dass die genaue Kenntnis der Struktur der Matrix Hx 
als Ergebnis von Satz 3.4 und somit auch der Matrix H signifikant zu einer effizienten Wahl 
geeigneter Basisfunktionen beiträgt und eine wesentliche Reduktion der Anzahl h der zu 
lernenden Gewichte ermöglicht. Würde beispielsweise nur angenommen, F sei symmetrisch, 
so müssten bei den gezeigten Simulationsbeispielen h = 325 (System 1) bzw. h = 2701 
(System 2) Gewichte geschätzt werden’!. Unter Beachtung von Lemma 3.4 reduziert sich diese 
Anzahl um rund 24 % (System 1) bzw. 26 % (System 2). Nutzung der dünnbesetzten Matrix 
Q nach Lemma 3.5 reduziert die zu lernenden Gewichte schließlich sogar um etwa 74% 
(System 1) bzw. 95 % (System 2) im Vergleich zur reinen Berücksichtigung der Symmetrie von 
H (vgl. Tabelle 3.2 für den Fall ny = 10). Wie (3.107) zeigt, beeinflusst die Wahl der Länge 
Np des Vorausschauhorizonts direkt die Anzahl h der zu lernenden Gewichte. Für den Fall, 
dass der Solltrajektorienverlauf über einen großen Vorausschauhorizont bekannt ist, kann 
somit zwar ein potenziell besseres prädiktives Verhalten erreicht werden, die Komplexität 
des ADP-Problems erhöht sich jedoch entsprechend. Somit ist bei der Wahl einer geeigneten 
Vorausschauhorizontlänge n, ein von der spezifischen Anwendung abhängiger Kompromiss 
einzugehen. 


3.4 Resümee zur zeitdiskreten ADP-basierten 
Solltrajektorienfolgeregelung 


Zusammenfassend wurde in Kapitel 3 erstmalig formal der Begriff zeitdiskreter ADP-kompatibler 
Solltrajektoriendarstellungen definiert. Zudem wurden zwei neuartige, flexible und effiziente 
ADP-basierte Solltrajektorienfolgeregelungsansätze präsentiert und analysiert. Ohne exakte 
Kenntnis der Systemdynamik können so Regelgesetze erlernt werden, die generalisieren, 
indem während des Trainingsvorgangs nicht gesehenen Solltrajektorienverläufen optimal 
gefolgt werden kann. Dies stellt einen wesentlichen Vorteil gegenüber bestehenden Vergleichs- 
methoden dar. Des Weiteren wird durch die vorgestellten Ansätze auch der zukünftige Verlauf 
der Solltrajektorie berücksichtigt, wodurch die resultierenden Regler prädiktives Verhalten 
aufweisen. 


Die beiden neuen, zeitdiskreten Solltrajektoriendarstellungen sind dabei ADP-kompatibel 
nach Definition 3.1 (vgl. Bemerkung 3.2 und Bemerkung 3.7). Bei der in Abschnitt 3.2 prä- 
sentierten lokalen Beschreibung des Solltrajektorienverlaufs durch den Parameter Zx und 
Basisfunktionsvektor p nach (3.15) entscheidet insbesondere die Wahl von p über die Appro- 
ximationsfähigkeit des Sollzustandsverlaufs und die Anzahl h der zu lernenden Gewichte. 
Wenngleich eine lokale Approximation des Solltrajektorienverlaufs, wie beispielsweise die in 


71 Selbst in diesem Fall wird schon das Wissen genutzt, dass die Q-Function quadratisch ist. 
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Abschnitt 3.2.5.1 gezeigten kubischen Polynome, gewisse Einschränkungen an die Voraus- 
schaufähigkeit von Solltrajektorienreglern implizieren kann, so bietet eine an die Problem- 
stellung angepasste Wahl der Solltrajektoriendarstellung im aktuellen Zeitschritt k einen 
entscheidenden Kompromiss zwischen Flexibilität und einer möglichst kompakten Darstellung 
mit handhabbarer Dimension h des Gewichtsvektors w. Dieser neuartige Ansatz erlaubt somit 
erstmals allgemein die Entwicklung vorausschauender, flexibler, kompakter, modellfreier 
ADP-basierter Solltrajektorienfolgeregler. 


Zudem wird in Abschnitt 3.3 der Fall betrachtet, direkt die Sollzustande, die auf einem glei- 
tenden Vorausschauhorizont der Lange n, gegeben sind, in die Q-Function zu integrieren, 
anstatt eine parametrische Beschreibung des Solltrajektorienverlaufs zu verwenden. Dieser 
Ansatz erlaubt einerseits eine völlig beliebige und exakte Vorgabe von Sollzuständen auf dem 
gleitenden Vorausschauhorizont, korreliert andererseits jedoch direkt mit einer quadratischen 
Zunahme der Dimension h des Gewichtsvektors w bei steigender Vorausschauhorizontlänge 
nm (vgl. beispielsweise (3.107)). Bei einer sehr großen Vorausschauhorizontlänge np stößt 
dieser Ansatz aufgrund der damit verbundenen unverhältnismäßigen Anzahl zu schätzender 
Critic-Gewichte somit an seine Grenzen. Beispielsweise zeigt Tabelle 3.2, dass für den Fall 
Np, = 100 selbst bei einem System zweiter Ordnung bereits Tausende Gewichte gelernt werden 
müssten. Dies geht neben einer höheren Anzahl benötigter Messdaten mit einer erhöhten 
Rechenzeit, einer potenziell erschwerten Erfüllung der Anregungsbedingung (3.115) und mög- 
lichen numerischen Problemen einher. Letztlich ist im Einzelfall abzuwägen, ob die direkte 
Verwendung der Sollzustände wie in Abschnitt 3.3 oder eine parametrische Approximation 
wie in Abschnitt 3.2 für eine konkrete Problemstellung von Vorteil ist. Aus theoretischer Sicht 
sei der Vollständigkeit halber noch angemerkt, dass die exakte Verwendung des Solltrajek- 
torienverlaufs auf einem gleitenden Vorausschauhorizont der Länge np nach Abschnitt 3.3 
letztlich als Spezialfall der parametrischen Darstellung aus Abschnitt 3.2 interpretiert werden 
kann. Hierbei entspricht Z; den unveränderten Sollzuständen auf dem Vorausschauhorizont 
der Lange np und p(x) fungiert als Schieberegister. 


Schließlich sei noch zu betonen, dass die im vorliegenden Kapitel vorgestellten Methoden zur 
ADP-kompatiblen Solltrajektorienrepräsentation grundsätzlich unabhängig von der konkreten 
Wahl des ADP-Algorithmus sind. Während in Abschnitt 3.2 beispielhaft eine Policy Iteration 
und in Abschnitt 3.3 eine Value Iteration verwendet wurde, können die vorgestellten ADP- 
kompatiblen Solltrajektoriendarstellungen ebenso im Rahmen von Actor-Critic-Ansätzen 
angewandt werden. Hierzu sei exemplarisch auf das Anwendungsbeispiel in Abschnitt 6.1 ver- 
wiesen. Ein weiterer Vorteil der vorgestellten ADP-kompatiblen Solltrajektoriendarstellungen 
ist zudem, dass, wann immer bei den vorgestellten Ansätzen eine Off-Policy-Methode zum Ein- 
satz kommt, vom System aufgezeichnete Daten £k, ur, &x+1 während des Trainingsvorgangs 
wiederverwendet werden können, um die Dateneffizienz zu steigern (vgl. Abschnitt 2.1.4.4). 


Die vorgestellten, neuartigen, flexiblen Mechanismen für ADP-basierte Solltrajektorienfolge- 
regler beantworten somit für den Fall zeitdiskreter Problemstellungen die in Abschnitt 2.4.1 for- 
mulierte Forschungsfrage 1 nach geeigneten Solltrajektoriendarstellungen und ihrer effizienten 
Integration in modellfreie ADP-Ansätze. Im nächsten Kapitel wird, auf den Erkenntnissen des 
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vorliegenden Kapitels aufbauend, der zeitkontinuierliche ADP-basierte Solltrajektorienfolge- 
regelungsfall betrachtet. 


4 Zeitkontinuierliche ADP-basierte 
Solltrajektorienfolgeregelung 


Nachdem im vorigen Kapitel zeitdiskrete ADP-kompatible Solltrajektoriendarstellungen be- 
trachtet wurden, wird in diesem Kapitel die in Abschnitt 2.4.1 formulierte Forschungsfrage 1 
für den zeitkontinuierlichen Fall beantwortet. Zunächst wird die Definition ADP-kompatibler 
Sollzustandsverläufe (vgl. Abschnitt 3.1) auf den zeitkontinuierlichen Fall übertragen. Anschlie- 
Bend wird eine ADP-kompatible zeitkontinuierliche Solltrajektoriendarstellung’? präsentiert, 
bei welcher der Solltrajektorienverlauf mithilfe eines von außen vorgebbaren Parameters defi- 
niert wird. Durch die explizite Abhängigkeit der Value Function nicht nur vom Systemzustand, 
sondern auch von diesem Trajektorienparameter, resultiert eine hohe Flexibilität der möglichen 
Solltrajektorienverläufe. Darauf aufbauend wird für linear-quadratische zeitkontinuierliche 
optimale Trajektorienfolgeregelungsprobleme der Einfluss eines globalen Diskontierungsfak- 
tors untersucht sowie eine Problemstellung mit teilweiser Dämpfung formuliert. Für diese 
Problemstellung lassen sich anschließend Aussagen über die Stabilität der optimalen Lösung 
treffen. Die vorgestellte Solltrajektoriendarstellung wird in einen bestehenden ADP-Ansatz 
integriert, sodass der resultierende optimale Trajektorienfolgeregler ohne Kenntnis der Sys- 
temdynamik aus aufgezeichneten Daten erlernt werden kann. Simulationsergebnisse für 
verschiedene Hyperparameter der neuartigen ADP-kompatiblen Solltrajektoriendarstellung 
sowie eine anschließende Diskussion schließen das vorliegende Kapitel ab. 


4.1 Definition ADP-kompatibler zeitkontinuierlicher 
Trajektorien 


Analog zu Abschnitt 3.1 lässt sich auch für den zeitkontinuierlichen Fall eine ADP-kompatible 
Solltrajektoriendarstellung formulieren. 


72 Dieser Abschnitt basiert auf einem im Rahmen der vorliegenden Dissertation entstandenen Konferenzbeitrag 


[BKIH21]. 
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Definition 4.1 (Zeitkontinuierliche ADP-kompatible Solltrajektoriendarstel- 
lung) 

Eine mit dem ADP-Formalismus kompatible Solltrajektoriendarstellung mit dem Sollzu- 
stand x,(t) € X ist durch zeitinvariante Funktionen f z, ¢ : Z > Xundf.:Z => R" 
mit 


T(t) = fx, ¢(C(t)) (4.1) 


C(t) = Felc) (4.2) 


charakterisiert, wobei Ç € Z C R"S, Vt, ng < 00. Zudem sei f », ¢(-) stetig und f ¢(-) 
Lipschitz-stetig auf Z. 


Basierend auf Definition 4.1 lasst sich die folgende formale Aussage treffen. 


Proposition 4.1 

Die Solltrajektoriendarstellung sei nach Definition 4.1 ADP-kompatibel. Fiir ein durch 
die zeitkontinuierliche Systemdynamik (2.10) beschriebenes System” und ein Lipschitz- 
stetiges Regelgesetz u(-) gilt: Sind die durch 


in r(a(r), le); u(z(r), w,(r)) ) dr (4.3) 


gegebenen Gesamtkosten (vgl. (2.20)), die von der Solltrajektorie x,(7), T > t, nach 
Definition 4.1 abhängen, endlich”, dann können sie durch eine Value Function der Form 
VY (a(t), ¢(t)) beschrieben werden. 


Beweis: 
Sei 


V” (a(t), ¢(t)) = f 7 r(a(r), #0(7), (a(t), £:(7))) dr (4.4a) 
= [rl facla fa) ar (4b) 
Aufgrund von ¢(r) = fe(¢(7)) mit f.(-) Lipschitz-stetig existiert ausgehend von ¢(t) nach 


dem Satz von Picard-Lindelöf [BSMM08, S. 673] Vr > t eine eindeutige Lösung für ¢(7) € Z. 
Somit legen ¢(t) und f¢(-) Vr > t den Referenzparameter ¢(7) in (4.4b) eindeutig fest. 


73 Ebenso gilt die Aussage von Proposition 4.1 auch für allgemeinere nichtlineare Systeme der Form 


&(t) = F(a(t), u(t)), aus Gründen der Einheitlichkeit wurde hier jedoch der eingangsaffine Fall formuliert. 
Für sinnvoll gestellte Probleme schließt dies neben der Stabilisierbarkeit des Systems und einem zulässigen 
Regelgesetz ys auch ein, dass durch die Wahl des Solltrajektorienverlaufs oder im Falle einer Erweiterung auf ein 
durch y diskontiertes Gütefunktional die Gesamtkosten endlich bleiben. 
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Analoges gilt ausgehend von a(t) und ¢(t) für den Systemzustand z(r), Vr > t, für den 
durch 


olr) = Fler) + 9(@(7))u(w(7), Fa ele) (4.5) 


geschlossenen Regelkreis. Daraus folgt, dass eine explizite Abhangigkeit der Value Function 
(4.4) von a(t) und ¢(t) zur Beschreibung der Gesamtkosten geeignet ist. 


Eine ADP-kompatible Solltrajektoriendarstellung stellt somit sicher, dass die Gesamtkosten- 
repräsentation in Form einer Value Function lediglich eine explizite Abhängigkeit von a(t) 
und ¢(t) aufweist. Die in den Abschnitten 2.2.2 und 2.2.3 diskutierten zeitkontinuierlichen 
ADP-Trajektorienfolgeregelungsmethoden erfüllen zwar die Kompatibilitätsforderung nach 
Definition 4.1”, ermöglichen jedoch keine externe Vorgabe eines Solltrajektorienverlaufs. 
Nachfolgend wird eine nach Definition 4.1 kompatible Solltrajektoriendarstellung vorgestellt, 
die zudem den zukünftigen Referenzzustandsverlauf berücksichtigt. 


4.2 Zeitkontinuierliche ADP-kompatible parametrierte 
Referenztrajektorie 


Im nächsten Unterabschnitt wird zunächst eine ADP-kompatible Solltrajektoriendarstellung 
präsentiert. Der Einfluss eines global diskontierten Gütemaßes auf den resultierenden Optimal- 
regler wird anschließend in Abschnitt 4.2.2 untersucht. Da es hierbei potenziell zu Instabilität 
des geschlossenen Regelkreises kommen kann, wird in Abschnitt 4.2.3 ein Optimierungspro- 
blem mit gedämpfter Referenzdynamik als Alternative zur Verwendung global diskontierter 
Gütemaße vorgestellt und analysiert. Für dieses Optimierungsproblem wird in Abschnitt 4.2.4 
ein ADP-basierter Regelungsansatz entworfen. Schließlich werden in Abschnitt 4.2.5 Simulati- 
onsergebnisse gezeigt, welche die Vorzüge der neuartigen ADP-kompatiblen Solltrajektorien- 
darstellung verdeutlichen. 


4.2.1 Solltrajektoriendarstellung 


Betrachtet werde die Sollzustandstrajektorie 


w(t) = (epi) rd, el] (4.6) 


Da auch in diesem Abschnitt zugunsten der Analysierbarkeit der LQ-Fall betrachtet werden 
soll, wird für die Elemente z,,;(t), Vi = 1,...,n, eine lineare Dynamik angesetzt. 


75 Bei Methoden, bei denen ein stationärer Sollzustand vorgegeben wird, stellt f w,,¢(-) eine Identitätsabbildung 


dar und es gilt f¢(-) = 0. 
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Konkret wird der Ansatz 


Ji Vij—1 Ji 
tat) = ( >, cnt) e^it = 5 Trat) (4.7) 


mit den Parametern c;;, € C und den Hyperparametern A;; € C und vi; € N gewählt. Hier- 
bei bezeichnet J; die Anzahl verschiedener Eigenwerte und 14; die algebraische Vielfachheit 
des Eigenwerts \,;. Die Parameter c;;, € C sind zunächst frei wählbar. Sie bestimmen den 
konkreten Verlauf der Sollzustandstrajektorie x, (t). Somit ermöglichen die Parameter c;jx 
die direkte Beeinflussung des Solltrajektorienverlaufs von außen (vgl. Abbildung 2.4), im 
Gegensatz zu der in der Literatur häufig verwendeten globalen Referenztrajektorie ohne 
äußere Beeinflussungsmöglichkeit nach Abbildung 2.2 und Tabelle 2.2. Verglichen mit den in 
Abschnitt 2.2.3 erwähnten Methoden, die lediglich den aktuellen Sollzustand oder die aktuelle 
Abweichung von diesem verwenden (vgl. Abbildung 2.3), wird durch den hier vorgestellten 
neuen Ansatz außerdem der Verlauf der Solltrajektorie berücksichtigt. Es sei weiterhin er- 
wähnt, dass die aus der Literatur bekannte stationäre Sollzustandsvorgabe einen Spezialfall 
des neu vorgestellten Ansatzes darstellt (vgl. Abschnitt 4.2.5.2). Der auf (4.6) und (4.7) ba- 
sierende Ansatz wird nachfolgend analysiert und dessen ADP-Kompatibilität im Sinne von 
Definition 4.1 gezeigt. 


Die Darstellung nach (4.7) entspricht der Summation von J; Lösungen 1z, ;; homogener linearer 
Differenzialgleichungen”® 


(vij) 


Qijvij Uy ij DH bagi Ft = 0 (4.8) 
Sar 


—=1 


mit v;;-fachem Eigenwert A;; [MBK19, Kapitel 4.7], deren charakteristische Polynome durch 


py) = A-A =), i (=A) TEA (4.9) 


(vgl. Binomischer Lehrsatz [AE10, Satz 8.4]) gegeben sind. Während die Parameter cijķ, die 
den Solltrajektorienverlauf beschreiben, zur Laufzeit variiert werden können, werden die 
Hyperparameter ;; und v;j vorab festgelegt”. 


Unter der folgenden Annahme ist die Reellwertigkeit des Solltrajektorienverlaufs x,(t) ge- 
währleistet. 


76 Die Notation a (t) bezeichnet die k-te zeitliche Ableitung von £r ¿j (t). 
77 Wie sich später in Bemerkung 4.3 zeigen wird, stellt dies ADP-Kompatibilität gemäß Definition 4.1 sicher. 
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Annahme 4.1 


Für alle reellwertigen Eigenwerte Aij € R sei cijk E€ R Yk € {0,...,v;; — 1}. Zudem 
gelte für jeden komplexwertigen Eigenwert Aij € C und den dazu konjugiert-komplexen 
Eigenwert Als gekennzeichnet durch den Index j* (d.h. A; ZW ie = Vij und 
* 

ijk" 


Ck = C 


Lemma 4.1 


Unter Annahme 4.1 folgt fiir Sollzustandstrajektorien x,(t) nach (4.6) und (4.7) Reell- 
wertigkeit, d.h. x,(t) € R”. 


Beweis: 
Siehe Anhang B.1. 


Bemerkung 4.1 


Für mehrfache Eigenwerte Aij bei null entspricht der Sollzustandsverlauf x,(t) einer 
Polynomfunktion und reelle Eigenwerte ungleich null resultieren in Exponentialfunktio- 
nen. Aus (4.7) folgt für reelle Eigenwerte Aij mit cijk € R (Vk € {0,...,v;; — 1}) nach 
Annahme 4.1 fiir jedes der J; Summenglieder 


Tr ij = (cijo EE oO r cijeg t") erist, (4.10) 


Konjugiert-komplexe Polpaare nach Annahme 4.1 führen zu harmonischen Funktio- 

nen, deren Amplitude und Phase durch cijo € C eingestellt werden können, da für 
AET 

“x gilt: 


Nia = AR + jAr = Ajs und Cijo = CR + jcı = Chis 


ee) trap) la) la ahe a 
= crer®! (Cau AL, eat) +jae™t (ei^t = a 


= Qerxt (cr cos(Art) AGI sin(Art)) 


Mit e 
Gl) = [ea lt), 3% | (4.12) 


lässt sich die gewöhnliche Differenzialgleichung (4.8) durch 


¢,,(t) = Diy) (4.13) 
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darstellen, wobei 


0 1 0 
0 0 1 Soy 0 
Dijg= | : f : ie ; (4.14) 
0 0 0 Bes: 1 
Qijo Qij1 Qij2 +++ Qij(vij—1) 


GO = [O el (4.15) 
zusammengefasst, folgt 
[si 0 2 1] 
O s} ... 0j IĠ (t) 
v)so sla (4.16) 
o oO... st} [Gat 
——_ 
=:S =:¢(t) 
wobei 
al lal, assy ei] (4.17) 
und 
syc= [1 0 ... 0) ER”, Vi, j, (4.18) 
gilt. Zudem folgt 
é(t) = Det) (4.19) 
mit 
D := diag (Dy,...,Diy,,.--,Dnz,)- (4.20) 


Für feste Hyperparameter \;; und vij ist der Verlauf der Solltrajektorie x,(t) durch 


as 
Oe lel ag ee | (4.21) 
mit 
; T 
Cig "= [cijo Ciji + Clan] (4.22) 
parametriert. 


Im Folgenden wird gezeigt, dass eine Bijektion zwischen c und ¢(0) existiert, die Parame- 
trierung der Solltrajektorie also eindeutig durch ¢(0) codiert ist. Hierzu wird zunächst das 
folgende Hilfslemma benötigt. 
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Lemma 4.2 


Die |-te zeitliche Ableitung von x, ;;(t) ist durch 


l Vij —1 
(1) = Aijt l I-m i s 
er e 
m=0 k=m 
gegeben. 
Beweis: 
Siehe Anhang B.2. 


Proposition 4.2 
Es existiert eine bijektive Abbildung zwischen c und ¢(0) der Form 


¢(0) =Te 


mitT € Rx, 


Beweis: 
Aus Lemma 4.2 folgt für t = 0 


2,(0) = S e NG Ml Cijm = 5 TA om (4.25) 
m=0 m=0 
Aus (4.12) ergibt sich der Initialzustand ¢; ;(0) zu 
Cy (0) = Tycy, (4.26) 
wobei Tee 
(Epp az ne , Lm=1,..., Vij (4.27) 


gilt. Mithilfe des Laplaceschen Entwicklungssatzes [BHWM12, Satz 3.21] folgt, da es sich bei 
T;; um eine untere Dreiecksmatrix handelt, 


Vig Vij—1 
det (Ti) = [[ Tu= [] U > 0 (4.28) 
I=1 I=0 


Mit 
T := diag (Tıı,...,Tıy,,::-,In,J,) (4.29) 
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ergibt sich nach [Pow11] 


n di 
det (T) =] [] [Ti > 0. (4.30) 


i=1 j=1 


Somit ist T regular und stellt nach [Axl15, Theorem 10.24] eine Bijektion dar. 


Die nachfolgende Bemerkung begründet, weshalb ¢(t) in (4.16) und D in (4.20) als reellwertig 
angenommen werden kénnen. 


Bemerkung 4.2 


Zwar stellt Lemma 4.1 x,(t) € R” sicher, dennoch können durch konjugiert-komplexe 
Polpaare Aij und AF; = Aij+ komplexwertige Zustände ¢,; und C,;+ sowie komplexwer- 


tige Einträge in den Elementen von D;; bzw. Dij» (vgl. (4.14)) resultieren. Durch eine 
eineindeutige Zustandstransformation lassen sich jedoch stets reellwertige Ersatzzustände 
mit einer reellen Dynamik erzeugen. Dieses Vorgehen ist in Anhang B.3 skizziert. Daher 
wird o. B. d. A. stets ¢(t) in (4.16) und D in (4.20) als reellwertig angenommen. 


Schließlich sei zu betonen, dass die soeben vorgestellte Referenztrajektoriendarstellung ADP- 
kompatibel ist. Dies ist in der nachfolgenden Bemerkung zusammengefasst. 


Bemerkung 4.3 


Die in diesem Abschnitt vorgestellte Referenztrajektoriendarstellung ist ADP-kompatibel 
im Sinne von Definition 4.1 mit 


Fae (CE) = SC(t) (4.31) 


(vgl. (4.1)) und 


Fe(C(t)) = Devt) (4.32) 


(vgl. (4.2)). Die Wahl der Hyperparameter Ai; und vi; definiert die Klasse der Refe- 
renztrajektorienapproximation (vgl. Bemerkung 4.1). Zur Laufzeit kann der konkrete 
Solltrajektorienverlauf durch Vorgabe des Parameters c schließlich von außen beeinflusst 
werden. 


4.2.2 Trajektorienfolgeregelung mit global diskontiertem Gütemaß 


Bevor ein ADP-basierter Solltrajektorienfolgeregler entworfen wird, soll untersucht wer- 
den, unter welchen Bedingungen und für welche Gütemaße unter Verwendung der in Ab- 
schnitt 4.2.1 vorgestellten ADP-kompatiblen Referenztrajektoriendarstellung stabilisierende 
optimale Lösungen existieren. 
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In Anlehnung an die Eingangs-Zustands-Stabilität [Kha02, Definition 4.7] und analog zur 
zeitdiskreten Referenz-Zustands-Stabilität (vgl. Definition 3.5) wird hierfür zunächst der 
Begriff der zeitkontinuierlichen Referenz-Zustands-Stabilität definiert. 


Definition 4.2 (Zeitkontinuierliche Referenz-Zustands-Stabilität) 


Ein geregeltes System ist Referenz-Zustands-stabil, wenn für endliche Solltrajektorienpa- 
rameter 
lella < œ 


beschränkte Systemzustände 


læ®ll < 00, Yt > 0, 


resultieren. 


Bei der Wahl eines geeigneten Gütemaßes, das einerseits die Abweichung des Systemzu- 
stands a(t) vom Sollzustand æ,(t) und andererseits die durch die Stellgröße u(t) aufgebrachte 
Stellenergie bestraft, ist ein schlecht gestelltes, d. h. mit unendlichen Gesamtkosten verbun- 
denes, Problem zu vermeiden (vgl. [XZLJ16]). Unendlich hohe Gesamtkosten entstünden 
beispielsweise dann, wenn das Halten des Systemzustands in einem Sollzustand mit Stellener- 
gie verbunden wäre, und Stellenergie sowie die Abweichung vom Sollzustand im Gütemaß 
mit unendlichem Optimierungshorizont bestraft würden. Daher ist die Verwendung eines 
globalen Diskontierungsfaktors y, wobei fiir y > 0 in der Zukunft liegende Kosten gedämpft 
werden, ein in der RL- und ADP-Literatur häufig verwendeter Ansatz (vgl. Tabelle 2.2). Für 


o-[]-[ JEJ Eoo u 


werde zunächst das folgende Problem betrachtet”®. 


78 Grundsätzlich lässt sich die in Abschnitt 4.2 vorgestellte ADP-kompatible Solltrajektorienreprasentation auch 


auf nichtlineare Systeme anwenden. Für eingangsaffine Systeme ergibt sich beispielsweise die erweiterte Sys- 
temdynamik &(t) := + ka u(t) =: Ff(&(t)) + g(@(t))u(t) sowie die Value Function 
Ve(a,¢) = fro e=Y(7=2) (q(x, C) + wT Ry) dr. Jedoch ist die Form der Value Function V} in diesem 
Fall im Allgemeinen unbekannt und die Wahl geeigneter Basisfunktionen zur Funktionsapproximation (vgl. 
Abschnitt 2.1.3) nach wie vor ungelöst [WHL17]. Zwar erlaubt beispielsweise der Satz von Stone-Weierstraß 
Aussagen zur Approximierbarkeit stetiger Funktionen auf einer kompakten Menge durch genügend viele Basis- 
funktionen (vgl. [Che78, S. 226], [Wei85]), jedoch kann die Anzahl benötigter Basisfunktionen gegebenenfalls 
hoch sein und die lediglich lokale Gültigkeit muss berücksichtigt werden. 
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Problem 4.1 (Globale Diskontierung) 


if em (8 (7) Qa(r) + wT (a(r), (7) Ru(@(r),C(r))) ar 
(4.34) 


min 
u(x(7),¢(T)) 


(4.35) 


= (a(r) — #,(7))" Q (æ(T) — 2,(r)), (4.37) 


d.h. in (4.34) wird die Abweichung des Zustands &(r) von x,(7) bestraft. Problem 4.1 kann in 
das folgende äquivalente Ersatzproblem überführt werden. Die Äquivalenz ist in Anhang B.4 
gezeigt. 


Problem 4.2 (Äquivalente Formulierung zur globalen Diskontierung) 


Ben in (#7 (7)Qa(r) + pw (ax(r),¢(7)) Ru(a(r), G(7))) dr (4.38) 


u.d. N. &(r) (4.39) 


mit Q wie in (4.36). 


Somit führt die Verwendung eines globalen Diskontierungsfaktors y zum gleichen Effekt, als 
würden bei einem nicht-diskontierten Optimierungsproblem alle Eigenwerte der erweiterten 
Systemmatrix Aum 3 nach links verschoben. Diese Verschiebung der Eigenwerte findet 
jedoch nur virtuell statt, d. h. aus Sicht des zu minimierenden global diskontierten Gütefunk- 
tionals wirken die Systemeigenwerte verschoben, das reale System bleibt jedoch nach wie vor 
durch (4.33) gegeben. Dies kann potenziell dazu führen, dass eine für das Ersatzproblem 4.2 


stabilisierende und optimale Lösung 


p (et), tO) = Kae) =- [Kt Ki] Bel (4.40) 
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gefunden wird, die zwar aufgrund der Äquivalenz zu Problem 4.1 auch (4.34) minimiert, jedoch 
mit einem instabilen Systemverhalten des Systems (4.35) und damit auch des Systems 


&(t) = (A - BK) a(t) (4.41) 
einhergeht. Dies wird anhand des nachfolgenden Beispiels illustriert. 


Beispiel 4.1 Betrachtet werde das stabilisierbare System zweiter Ordnung mit der 
Systemdynamik 


ie E er | a o HO (4.42) 


Für eine ADP-kompatible Solltrajektoriendarstellung nach (4.7) werde ein einzelner Ei- 
genwert bei A1ı = 0 gewählt, wodurch die Vorgabe eines konstanten Sollzustands für 
den Zustand x(t) ermöglicht wird. Dies führt nach (4.39) auf die effektive erweiterte 
Systemdynamik 


ba; AE El R=100 und y=1 (4.44) 


0 0 0 


existiert eine optimale Lösung für Problem 4.2 und das optimale Regelgesetz ergibt sich zu 


u(&(t)) = — [0,0067 0,0016 —0,0044] x(t). (4.45) 
NE 

=K“ 
Die Systempole des mittels (4.45) geschlossenen Regelkreises, d. h. die Eigenwerte von A— 
BK ergeben sich zu0,0966+j0,9988; 0. Dies führt selbst bei der Vorgabe x, 1 (t) = 0 zu 
einem instabilen System, wie in Abbildung 4.1 für &(0) = [1 1 OM veranschaulicht 
ist. Die mögliche Instabilität ist somit auf die globale Diskontierung und nicht auf die 


Solltrajektoriendarstellung zurückzuführen. Insbesondere ist das System für dieses Beispiel 
auch nicht Referenz-Zustands-stabil nach Definition 4.2. 
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Abbildung 4.1: Verlauf der Systemtrajektorie für das betrachtete Beispielsystem bei globaler Diskontierung. 


Da durch die Verwendung einer globalen Diskontierung y > 0 und die damit verbundene 
Dämpfung der Kosten in (4.38), wie in Beispiel 4.2 ersichtlich, ein instabiles Regelgesetz 
resultieren kann, wird im nächsten Abschnitt die Verwendung eines Diskontierungsfaktors, 


der lediglich die Dynamik D dämpft, vorgestellt. 


4.2.3 Trajektorienfolgeregelung mit gedämpfter Referenzdynamik 

Um trotz einer gegebenenfalls nicht asymptotisch stabilen Solltrajektoriendynamik D nach 
(4.19) und ohne Verwendung einer globalen Diskontierung wie in Problem 4.1 ein Optimie- 
rungsproblem mit endlichen Kosten zu definieren, wird die Verwendung einer teilweisen 


Dämpfung der erweiterten Systemdynamik gemäß der nachfolgenden Problemstellung be- 
trachtet. 


Problem 4.3 (Teilweise Dämpfung) 


a fe (#7 (7)Qa(r) ua) (x(r), ¢(r))Ru(a(r), G(7))) dr (4.46) 


(4.47) 


(4.48) 


und Q wie in (4.36). 
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Bemerkung 4.4 


Für den mit der gedämpften Dynamik D' = D— ZI propagierten Trajektorienparameter 
C(t) folgt mit 


Fett) = D'C) (4.49) 
analog zu Bemerkung 4.3 ADP-Kompatibilität. 


Zudem werden die folgenden Standardannahmen für LQ-Optimierungsprobleme (vgl. [AM89, 
Abschnitt 3.2], [LVS12, Abschnitt 3.4], [Kué73]) vorausgesetzt. 


Annahme 4.2 
1. (A, B) sei stabilisierbar. 
2. Seien Q = 0 und R > 0. 
3. (A, VQ) sei detektierbar, wobei /Q' VQ = Q gilt. 


Im Folgenden wird die Stabilität des geschlossenen Regelkreises für die nach Problem 4.3 opti- 
male Lösung untersucht. Bevor durch Satz 4.1 die Hauptaussage des vorliegenden Abschnitts 
folgt, werden zunächst einige hierfür benötigte Zusammenhänge gegeben. 


Mia E RA, on nn, 
M€ I este na < ma 


Matrizen mit Maximalrang, d. h. es gelte 


Rang (M1) = Dim(Bild(M})) = nı, 
Rang (M2) = Dim(Bild(M>)) = no. 
Dann weist 
M3 
M2 


| E R(rıtn2)x (mı tme) 


für beliebige M3 € R”!*™?2 den Maximalrang 
Rang (M) = nı + na 


auf. 
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Beweis: 
Der Beweis ist in Anhang B.5 gegeben. 


Im weiteren Verlauf sei 


min := 2 max (0, Au(D)); (4.56) 


wobei Ah.(D) dem Eigenwert von D mit größtem Realteil entspricht””. Damit lässt sich das 
folgende Lemma formulieren. 


Lemma 4.4 
Unter Annahme 4.2 ist das durch (A, B) beschriebene System mit A’ wie in (4.48) und 


B= 5 stabilisierbar, falls y > Ymin gilt. 


Beweis: 
Siehe Anhang B.6. 


Lemma 4.5 
Seien M1, Ma wie in (4.50)-(4.53). Dann weist 


M, O 


sls Be M2 


| € Rm tn2)x (mı +m2) 


für beliebige M3 € R”?*™:! den Maximalrang 
Rang (M) = nı +n2 


auf. 


Beweis: 


Der Beweis erfolgt analog zum Beweis von Lemma 4.3. 


Lemma 4.6 


Unter Annahme 4.2 ist (2. 4/ à) detektierbar, falls y > Ymin gilt. Hierbei sei A’ wie 


in (4.48) und Va Và = Q mit Q aus (4.36). 


79 Nach Bemerkung 4.2 ist D reellwertig. 
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Beweis: 
Siehe Anhang B.7. 


Satz 4.1 
Sei Annahme 4.2 erfüllt, zudem gelte y > Ymin = 2 max (0, Ak(D)). Dann existiert 


~ * 
eine eindeutige, symmetrische, positiv semidefinite Lösung P der algebraischen Riccati- 


Gleichung 
(4.59) 


Zudem ist 


sind global asymptotisch stabil. 


Beweis: 
Nach Annahme 4.2 gilt R > 0 und Q > 0. Somit folgt aufgrund von 


2'Q&=(|I -S]ä)'Q(|I -S]&)>0, vē, (4.64) 


direkt Q = 0. Zudem ist (A, B) stabilisierbar (Lemma 4.4) und (4’ va) detektierbar 


(Lemma 4.6). Existenz und Eindeutigkeit von P folgen daher direkt aus [AM89, Abschnitt 3.2] 
und [Ku£73, Theorem 5], ebenso die global asymptotische Stabilität von (4.62). 


Schließlich wird global asymptotische Stabilität von (4.63) gezeigt. Wegen 


Y BKK ý J a A-BK? a Ges 


0 D | Er Kl=| 0 D' 
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folgt mit [Pow11] 


det (AT — (A' - BK*)) = det(AT- (A - BK}))det (AMT - D'). (4.60) 


Eigenwerte von A — BK sind somit zugleich auch Eigenwerte von (A - BK ) , weshalb 


global asymptotische Stabilität von (4.63) resultiert. 


Korollar 4.1 
Das System 


&(t) = (A- BK?) a(t) - BK{Tc 


ist Referenz-Zustands-stabil nach Definition 4.2. 


Beweis: 
Da (4.63) nach Satz 4.1 global asymptotisch stabil ist, ist (4.67), wenn (A — BK) als Sys- 
temmatrix und -BK cr als Eingangsmatrix interpretiert wird, Eingangs-Ausgangs-stabil 
[Lun20b, S. 59]. Für endliche Solltrajektorienparameter c folgen somit stets beschränkte Sys- 
temzustände und (4.67) ist Referenz-Zustands-stabil. 


Dies zeigt insbesondere, dass, obwohl durch eine äußere Vorgabe von c eine Neuinitialisierung 
von Ç erfolgt (vgl. Proposition 4.2), die Stabilität des Systemzustands a(t) durch die beliebige 
Vorgabe endlicher Solltrajektorienparameter c nicht gefährdet wird. Der in (4.67) verwendete 
Regler 


u(x(t),c) = -Kie(t) - Kre (4.68) 


liefert dabei die nach Problem 4.3 optimale Stellgröße, wobei durch Wahl von [ec der Initialwert 
C(t) in (4.46) eingestellt wird. Mithilfe von c kann somit jederzeit der lokale Verlauf der 
Solltrajektorie beeinflusst werden. 


Das nachfolgende Beispiel greift das in Beispiel 4.2 bereits betrachtete System erneut auf und 
veranschaulicht, dass die in Problem 4.3 vorgestellte teilweise Dämpfung zu einem geregelten 
System führt, welches Referenz-Zustands-stabil ist. 


Beispiel 4.2 Betrachtet werde das durch (4.42) gegebene System, zudem sei D = 0 
und somit D' = — ZI. Mit Q, R, S und y wie in (4.44) folgt das optimale Regelgesetz 


u(&(t)) = — [0,4245 —0,0843 0,0022] &(t) (4.69) 
N U 


* 


=K 
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für Problem 4.3. Die Eigenwerte von A — BK‘ ergeben sich zu —0,1122 + j0,9988 und 
Referenz-Zustands-Stabilität folgt nach Korollar 4.1. Für &(0) = [1 1 0] T ist der sich 
ergebende Zustandsverlauf in Abbildung 4.2 gezeigt. 


— ei) Al) — eae) 


30 


tins 


Abbildung 4.2: Verlauf der Systemtrajektorie für das betrachtete Beispielsystem bei teilweiser Dämpfung. 


Für den Rest dieses Kapitels wird daher die in Problem 4.3 vorgestellte teilweise Dämpfung 
der erweiterten Systemdynamik verwendet. 


Die nachfolgende Bemerkung zeigt jedoch, dass auch die Nutzung einer global diskontierten 
Gütefunktion prinzipiell möglich wäre, solange die Diskontierung nicht zu stark ist, d.h. y 
nicht zu groß gewählt wird®”. 


Bemerkung 4.5 


Eine Möglichkeit, unter Annahme 4.2 stabilisierende Lösungen für LQ-Solltrajektorien- 
folgeregelungsprobleme zu gewährleisten, ist nach Satz 4.1 durch die Verwendung einer 
teilweise gedämpften erweiterten Systemdynamik nach Problem 4.3 gegeben. 

Eine Alternative dazu ist die Verwendung einer global diskontierten Gütefunktion nach 
Problem 4.1 unter Beachtung zusätzlicher Nebenbedingungen bei der Wahl des Diskontie- 


rungsfaktors y. Beispielsweise ist in [XZLJ16, Theorem 4] durch y < 2 | (BR BT) 2 
eine obere Schranke für global diskontierte LQ-Regulierungsprobleme gegeben, sodass eine 
stabilisierende Lösung existiert. Analog liefert [YWM* 19, Theorem 1] obere Schranken 
für Zwei-Spieler-LQ-Differenzialspiele. Zur Berechnung dieser Schranken müssten jedoch 
sowohl die Parameter der jeweiligen Gütefunktionen als auch die jeweiligen Eingangs- 
matrizen B bekannt sein. Zu beachten ist weiterhin, dass æ,(t) nicht zu unendlichen 


2 


80 Analog hierzu stellt Satz 3.3 im zeitdiskreten Fall Stabilität sicher, sofern dort die Diskontierung nicht zu stark 


gewählt wird, d.h. y nicht zu klein gewählt wird. 
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Gesamtkosten führen darf. In [XZLJ16] wird daher beispielsweise zusätzlich zur oberen 
Schranke von y gefordert, dass x,(t) beschränkt ist und y > 0 gilt". 
Die Verwendung einer globalen Diskontierung ist somit durchaus möglich, sofern die 


Diskontierung mit Bedacht gewählt wird. Dies ist insbesondere für Algorithmen relevant, 
deren Konvergenzaussagen von der Verwendung einer globalen Diskontierung profitie- 


Nachdem in diesem Abschnitt eine ADP-kompatible lokale Referenztrajektorienrepräsentation 
vorgestellt wurde, wird diese Solltrajektoriendarstellung im nachfolgenden Abschnitt für den 
Entwurf eines ADP-basierten Solltrajektorienreglers verwendet. 


4.2.4 ADP-Umsetzung 


In diesem Abschnitt werden die Struktur des ADP-basierten Solltrajektorienfolgereglers, 
der die in Abschnitt 4.2.1 präsentierte Trajektorienrepräsentation verwendet, und der zu- 
grunde liegende ADP-Algorithmus, der genutzt wird, vorgestellt. Anschließend werden in 
Abschnitt 4.2.5 Simulationsergebnisse präsentiert. 


Um Problem 4.3 basierend auf Messdaten und ohne Kenntnis der Werte von A und B lösen 
zu können, wird eine zeitkontinuierliche Value Iteration (vgl. Abschnitt 2.1.4.2), konkret der 
Algorithmus von Bian und Jiang [BJ16a], verwendet. Dieser Ansatz benötigt keine explizite 
Kenntnis eines zulässigen initialen Regelgesetzes und gehört zudem zur Klasse der Off-Policy- 
Algorithmen inklusive der in Abschnitt 2.1.4.4 genannten Vorteile. Die zeitkontinuierliche 
Value Iteration [BJ16a] ist der Klasse der IRL-Algorithmen zuzuordnen und basiert auf einer 
Grenzwertbetrachtung der zeitdiskreten VI (vgl. Abschnitt 2.1.4.2). Nachfolgend stellt t die 
physikalische Zeit (und letztlich auch die Zeit der Datenaufzeichnung) dar, wohingegen s 
die Zeitvariable des Adaptionsvorgangs beschreibt (dies entspricht dem Iterationsindex / der 
zeitdiskreten VI). Das Ziel der Methode ist somit die Konvergenz 


lim V” (z(t)) = V* (2)). (4.70) 
Aus (2.20b) folgt 
t+ Tr 
VFenm (&(t)) = min f r(&, u) dr + V*(&(t+ Tr)) (4.71) 
t 


81 Für eine instabile Exosystemdynamik würde sich, aufgrund der Nicht-Steuerbarkeit von Ç (t), auch bei Verwen- 


dung einer globalen Diskontierung zusätzlich zu einer oberen Schranke für y (vgl. [XZLJ16, Theorem 4]) die 
untere Schranke min (4.56) ergeben. 

Siehe beispielsweise [LP03, Theorem 7.1] für Konvergenzaussagen des zeitdiskreten LSPI-Ansatzes. In [HWL21, 
Theorem 2] wird zudem eine untere Schranke für die Wahl eines Diskontierungsfaktors eines global diskontierten 
zeitkontinuierlichen Optimierungsproblems gegeben, um Stabilität zu gewährleisten. 


82 
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(vgl. (2.24)) und somit 


ee) = min (ran) + (Vav#-( 


Qe 
nn 
~œ 
— 
x 
ha en 
4 
Q 
a} & 
o | 
mH 
SS 
N—_ 


(4.72) 
(2.14) 


= min H(&, VzV*(&), p) 
H 


(vgl. [BJ16a], [Büh20, Abschnitt 3.1.2]). Die Value Function V“s (&) sowie (Va V” (z))" aW 
werden entsprechend [BJ16a] durch lineare Funktionsapproximatoren (vgl. Abschnitt 2.1.3) 


v": (&) = 8B) als) (4.73) 
und 
(vave a EO = yr, uint) (4.74) 


beschrieben. Da im betrachteten LQ-Fall nach Problem 4.3 die optimale Value Function durch 
V*(&) = £'P & gegeben ist (vgl. [Föl16, S. 342]), lassen sich wegen® 


V*(&) = &'P’& = (& @, &)' vecr (P’) (4.75) 
Se aN 
=(2) = ws 
und 
eC ee ee 
(Vavta) E = 28" P" (Az + Bu) 
= (# Qr £)' vecr (1P + PA) + (28 u)! 2vec (B'P*) 
vecr (1P F PA) 
=[(8: 2) (€@u)"] Spas (4.76) 
2vec (B ) 
=:41 (&,u) 
Swi, 


geeignete Funktionsapproximatoren d(&) und ~(%, u) wählen. Aus der Minimierung der 
Hamilton-Funktion (vgl. (2.14), (2.18) und (4.72)) sowie der Linearität von w(x, u) bezüglich 
u folgt 

d&(t) 


u’(&) = arg min ((vev" @) = + ru) 


= arg min (wT (2, uyw,+r(&, u)) 
1 = * 
= 5k (Vurh(a, u)) w3, 


--Kiä (4.77) 


83 Hierbei bezeichnet ® das Kronecker-Produkt, ®, das reduzierte Kronecker-Produkt, welches nur nicht- 
redundante Elemente beinhaltet, vec(-) die Vektorisierung einer Matrix, wobei die Spalten vertikal konkateniert 
werden, und vecr(-) die Vektorisierung einer symmetrischen Matrix M, sodass x1 Ma = (x Q, x)Tvecr(M) 
gilt. 
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mit 
K = IR ‘mat [wi] ac HE pn (4.78) 
2 p HIED (Atn ñp)’ , , . 


wobei ñ = n + nç der Dimension des erweiterten Zustands & und p der Dimension der 
Eingangsgröße u entspricht®. Damit reduziert sich das ADP-Problem auf das datenbasierte 
Bestimmen insbesondere des Gewichts w}. Das Vorgehen der hierbei verwendeten Value 
Iteration [BJ16a] ist in Anhang B.8 skizziert. 


Da eine ausreichende Systemanregung, d. h. Regularitat der Matrizen D, (B.34) und Dy, (B.35), 
während der Datenaufzeichnung für einen erfolgreichen Adaptionsprozess benötigt wird 
[BJ16a, Assumption 3] (vgl. auch Kapitel 5), wird Gaußsches weißes Rauschen mit der Stan- 
dardabweichung o.,pı zum Systemeingang u(t) addiert. Weil hierdurch jedoch nur der System- 
zustand a(t) und nicht der erweiterte Zustand &(t) = [æT (t) C’(t)] T angeregt wird, muss 
zudem der Zustand ¢(t), der den Solltrajektorienverlauf repräsentiert, angeregt werden. Um 
angeregte Daten ¢(t) für den Adaptionsprozess zu generieren, ohne dabei den Systemzustand 
x(t) weiter zu beeinflussen, wird die in Abbildung 4.3 gezeigte Struktur verwendet. 


Der Referenzzustand ¢,,.,(t) wird zu Beginn jedes Integrationsintervalls der Lange Tig, 
zufällig initialisiert, indem für jedes Element ein zufälliger Wert aus der Normalverteilung 


N (0; öka) gezogen wird. Hierdurch wird einerseits sichergestellt, dass unterschiedliche 
Referenzzustände in den Trainingsdaten vorhanden sind, andererseits folgt ¢,.,;, innerhalb 
eines IRL-Integrationsintervalls der Dauer Tig, der durch D =D- ZI beschriebenen 


Dynamik, weshalb eine ADP-kompatible Solltrajektoriendarstellung (vgl. Definition 4.1) zur 


N (0: a) Value Iteration 
© /k a) Etrain (t) 
u(t) 7 
l a(t) 
|__| #(t) = Ax(t) + Bu(t) e 
C(t) 
externe Sollvorgabe c(t) —————>| ePtr 
Ctrain () 


reset Cirain (t) I Cant) = (D = 41) Ctrain (t) 


Abbildung 4.3: Struktur des vorgestellten zeitkontinuierlichen ADP-Trajektorienfolgeregelungsansatzes. 


84 Der Operator mat(-) bildet aus einem Vektor eine Matrix, wobei mat(vec( M), ñ, p) = M € R**XP gilt, zudem 


bezeichne [v], p [ony aoe Ung]! mit n1, n2 € Nyo,n1 < na, einen Teilvektor eines Vektors v. 
1in2 
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Erzeugung der Lerndaten vorliegt. Unabhängig davon kann der gewünschte Verlauf der 
Trajektorie durch beliebige Vorgabe des Parameters c(t) erfolgen. 


4.2.5 Simulationsergebnisse 


Die simulative Evaluation des zuvor vorgestellten ADP-basierten Solltrajektorienfolgereglers 
erfolgt anhand einer Implementierung in MATLAB R2020a (64 Bit) und SIMULINK 10.1. Zunächst 
werden das während der Simulation verwendete Beispielsystem und die Trainingsparame- 
ter vorgestellt. Danach werden durch Wahl der Hyperparameter \;; und vij verschiedene 
Solltrajektorienparametrierungen betrachtet (vgl. Bemerkung 4.1) und mit der aus der Litera- 
tur bekannten stationären Sollwertvorgabe verglichen. Abschließend wird der Einfluss von 
Messrauschen, das auf den Systemzustand a(t) addiert wird, simulativ untersucht. 


4.2.5.1 Systemmodell und Parametrierung des ADP-Algorithmus 


Betrachtet wird im Folgenden ein Feder-Masse-Dämpfer-System mit der Masse Msys = 1 kg, 
der Federsteifigkeit ksys = 1 N m! und der Dämpfung dy, = 1Ns m!, auf das eine Kraft 
als Stellgröße wirkt. Das System ist demnach durch die Zustandsdifferenzialgleichung 


o= |e En x(t) + 2 ut) =| ° A ESH u(t) 479) 


100 0 

0 0 
Zustand zx; (t) einer noch näher zu spezifizierenden Solltrajektorie folgen. Der Initialzustand 
werde zu (0) = [1 il gesetzt. 


beschrieben. Zudem sei R = 1,Q = | und y = 0,01 (vgl. Problem 4.3). Somit soll der 


Für den Trainingsvorgang wird das Integrationsintervall zu Tę, = 0,01 s, das Anregungs- 
rauschen zu Ocypı = 1 und die Anzahl der verwendeten Tupel zu M = 200 gesetzt. Die zu 
lernenden Gewichte werden mit w,,(0) = 0 und w,(0) = vecr( ZT Z) initialisiert, wobei 
Z € R?*Î zufällige Elemente® enthält, wodurch die initiale Value Function positiv definit 
ist (vgl. [BJ16a, Theorem 2]). 


4.2.5.2 Stationäre Sollwertvorgabe (Vergleichsmethode) 


Der vorgestellte Ansatz erlaubt als Spezialfall auch die in der Literatur häufig verwendete sta- 
tionäre Sollwertvorgabe (vgl. Abschnitt 2.2). Dieser Fall, welcher der Vorgabe eines Polynoms 
nullter Ordnung entspricht, soll zu Vergleichszwecken hinzugezogen werden. Mit Jı =1, 


Mu = 0 und v = 1 folgt D=0,S=|1 0]' und 


K” = [9,0499 3,3703 —9,9288] . (4.80) 


85 Konkret wird eine Gleichverteilung im Intervall (0; 0,1] verwendet. 
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Der Parameter c(t) entspricht in diesem Fall dem Solltrajektorienverlauf x, ı (t). Abbildung 4.4 
|K) -K | 
Die ohne Verwendung des Systemmodells gelernten Reglergewichte konvergieren bis auf eine 
Fehlernorm von 6,28 - 10714. 


zeigt den Verlauf der Reglerparameter K (t) und die Gewichtsfehlernorm 


0 5 10 15 20 25 30 35 40 45 50 


tins 


Abbildung 4.4: Reglergewichte K (t) (oben) und Gewichtsfehlernorm |K (t) — K* |, (unten) für das Beispiel der 


stationären Sollvorgabe. Während der ersten 2s werden M = 200 Datentupel aufgezeichnet. 


4.2.5.3 Harmonischer Oszillator als Solltrajektorienparametrierung 


In diesem Beispiel werden zur Beschreibung von z, zwei konjugiert-komplexe Polpaare 
Ai = Ag = jwı und Aız = ATy = jw2 mit vij = 1,7 = 1,...,4, verwendet (vgl. Annah- 
me 4.1). Während die Hyperparameter durch die beispielhaft gewählten Werte w; = 0,5 und 
wa = 1,3 die Frequenzen der darstellbaren harmonischen Schwingungen festlegen, lassen 
sich durch cı10 = Clog € C und cız0 = Clan € C nach Bemerkung 4.1 deren Phasen- 
verschiebungen und Amplituden parametrieren. Da die Konstruktion nach (4.14) zu einem 
komplexwertigen D führt, wird die in Anhang B.3 gezeigte Zustandstransformation ange- 
wandt. Dies führt auf 


0 w 0 0 
o |-w, 0 0 0 _ fil 010 
D= 0 0 0 und s=|, 00 j (4.81) 
0 0 —w 0 


Das optimale Regelgesetz berechnet sich nach Satz 4.1 zu 


K” = [9,0499 3,3703 —9,6992 —2,1628 -—8,1630 —5,5458] . (4.82) 
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Die Sollzustandstrajektorie wird durch den Parameter c beschrieben. Dieser wird zu den in 
Tabelle 4.1 gezeigten Zeitpunkten auf die dort aufgeführten Werte gesetzt und anschließend 
konstant gehalten. 


Zeit t C110 = Ch20 2|c110| C130 = Chao 2\c130| 
Os 0,1768+j0,1768 0,5 0,2500 + j0 0,5 

9,78 0+3j0 0 0,1294 + j0,4830 1 

18,7s 0,2000 + j0 0,4 0 + j0,1000 0,2 


Tabelle 4.1: Wahl des Parameters c für das Beispiel der harmonischen Referenzzustandsdarstellung. Nach (4.11) 
stellt 2|cı10| die Amplitude der Schwingung mit Frequenz wı = 0,5 und 2|c130| die Amplitude zur 
Frequenz w2 = 1,3 dar. 


Der resultierende Sollzustandsverlauf z, ı (t), Zustandsverlauf x(t) und Stellgrößenverlauf 
u(t) ist in Abbildung 4.5 gezeigt. Während der ersten zwei Sekunden wird der Datenspeicher 
mit M = 200 Tupeln gefüllt. Danach werden die Gewichte wy und Ùy, adaptiert und das 
Anregungsrauschen zu null gesetzt. Der Zustand xı folgt dem Sollzustandsverlauf x, ı optimal 
im Sinne des Gütemaßes (4.46). Dies bestätigt Abbildung 4.6, in welcher der zeitliche Verlauf 


Kt- K“ 
sehen sind. Die Reglergewichte konvergieren hierbei bis auf eine Fehlernorm von 2,83- 10713. 


Der Rang der Datenmatrizen D, und Dy (vgl. Anhang B.8) ist in Abbildung 4.7 gezeigt, 
welche eine ausreichende Anregung der Daten bestätigt. 


der gelernten Reglerparameter K (t) sowie deren Gewichtsfehlernorm zu 
2 


In Abbildung 4.5 sind des Weiteren die Trajektorien xı (t), 2,5(t) und u,(t) der Vergleichs- 
lösung mit stationärer Sollzustandsvorgabe nach Abschnitt 4.2.5.2 gezeigt. Da die Vorgabe 
des aktuellen Sollzustands x, ,ı (t) keinerlei Information über den weiteren Verlauf der Solltra- 
jektorie beinhaltet, nimmt der Vergleichsregler mit stationärer Sollwertvorgabe stets an, der 
aktuelle Sollzustand solle bis ins Unendliche gehalten werden. Dies führt zu einem merklichen 
Zeitversatz der Trajektorie x, s(t). Wie Abbildung 4.8 verdeutlicht, korreliert dieser Zeitver- 
satz der Trajektorie mit deutlich höheren Kosten. Die in dieser Arbeit präsentierte Methode 
berücksichtigt hingegen den zukünftigen Verlauf der Solltrajektorie und führt aufgrund der 
damit verbundenen Vorausschaufähigkeit zu signifikant geringeren Kosten im Sinne des 
Gütefunktionals. So werden die kumulierten Kosten am Ende des Simulationsbeispiels, wie in 
Abbildung 4.8 ersichtlich, um etwa 69 % reduziert. 
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Abbildung 4.5: Sollzustandsverlauf x;,ı (t), Zustandsverlauf a(t) und Stellgröße u(t) für das Beispiel des harmoni- 
schen Oszillators als Solltrajektorienparametrierung im Vergleich zur stationären Sollzustandsvorga- 
be (gekennzeichnet durch den Index s). 
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Abbildung 4.6: Reglergewichte K (t) (oben) und Gewichtsfehlernorm |K ()-K* |, (unten) für das Beispiel 


des harmonischen Oszillators als Solltrajektorienparametrierung. Während der ersten 2s werden 
M = 200 Datentupel aufgezeichnet. 
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Abbildung 4.7: Rang der Datenmatrizen Dg € R"#*”# und Dy € R"»*”v» während der ersten 2s. Für 
das gewählte Beispiel des harmonischen Oszillators als Solltrajektorienparametrierung gilt 


ng = AGED = 21 und ny = ZGD + ñp = 27. 


stationäre Sollzustandsvorgabe 


tins 


Abbildung 4.8: Kosten r(z(t), v(t), w(t)) und kumulierte Kosten Se r(a(7), @r(7), u(7)) dr für das Beispiel 
des harmonischen Oszillators als Solltrajektorienparametrierung im Vergleich zur stationären Soll- 


zustandsvorgabe. 


4.2.5.4 Polynomvorgabe 


Im Folgenden wird zur Beschreibung des Sollverlaufs des ersten Systemzustands ein Polynom 
zweiten Grades verwendet, d.h. es gilt 


a,,1(t) = C110 + crt + Grat”. (4.83) 
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Dies entspricht nach Bemerkung 4.1 einem dreifachen Eigenwert bei null (A11 = 0, v11 = 3). 
Mit 


010 
D= |0 0 1 und S = fF : o (4.84) 
0 0 0 
berechnet sich die optimale Zustandsrückführungsmatrix zu 
K = [9,0499 3,3703 9,9288 4,3181 —0,8922]. (4.85) 


Der Parameter c, der den Solltrajektorienverlauf beschreibt, wird, wie in Tabelle 4.2 gezeigt, 
gesetzt und zwischen den dort aufgeführten Zeitpunkten konstant gehalten. 


Zeitt a(t) lt) a(t) C110 C111 C112 
Os 0 0 0 0 0 0 
5s 0 1 0 —5 1 0 
10s 5 0 0 5 0 0 
15s 5 0 —0,6 —62,5 9 —0,3 
18s 2,3 —1,4 1 189,5 -19,4 0,5 
208 1,5 1-05 =118,5 11 —0,25 
25s 0,25 —2 1,4 487,755 —37 0,7 

26,4s -1,1780 0 0 —1,1780 0 0 
28s 1,1780 0 0,07 26,2620 —1,96 0,035 
35s 0,5370 0,5 —0,1 —78,2130 4 —0,05 


Tabelle 4.2: Wahl des Parameters c für das Beispiel der Polynomvorgabe. Hierbei entspricht 
C(t) = [ær (t) Erılt) &r,1(t)]" (vel. (4.12). 


Der Sollzustandsverlauf x, ı (t), Zustandsverlauf x(t) und Stellgrößenverlauf u(t) ist in Abbil- 
dung 4.9 gegeben. Abbildung 4.10 zeigt den zeitlichen Verlauf der geschatzten Reglerparameter 


K (t) und die Gewichtsfehlernorm | (t)-K' 


eine Fehlernorm von 2,63- 1078. Der Rang der Datenmatrizen Dy und Dy, ist Abbildung 4.11 
zu entnehmen. 


| . Die Reglergewichte konvergieren bis auf 
2 


Auch in diesem Fall weist der in dieser Arbeit vorgestellte Ansatz, eine ADP-kompatible 
Beschreibungsform des Solltrajektorienverlaufs zu verwenden, Vorteile gegenüber der Ver- 
gleichsmethode nach Abschnitt 4.2.5.2 auf. So folgt gemäß Abbildung 4.9 der Zustand xı (t) 
dem Sollzustand x, ı (t) präziser im Vergleich zu zı s(t). Letztlich kann, wie Abbildung 4.12 
offenbart, der neuartige Ansatz auch in diesem Beispiel die Kosten im Vergleich zur statio- 
nären Sollzustandsvorgabe signifikant reduzieren. Die kumulierten Kosten werden in dieser 
beispielhaften Simulation um 38 % verringert. 
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Abbildung 4.9: Sollzustandsverlauf x, ı (t), Zustandsverlauf x(t) und Stellgröße u(t) für das Beispiel der Polynom- 
vorgabe im Vergleich zur stationären Sollzustandsvorgabe (gekennzeichnet durch den Index s). 
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Abbildung 4.10: Reglergewichte K (t) (oben) und Gewichtsfehlernorm |K (t) — K* |, (unten) für das Beispiel 
der Polynomvorgabe. Während der ersten 2s werden M = 200 Datentupel aufgezeichnet. 
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Abbildung 4.11: Rang der Datenmatrizen Dg € R”#*"® und Dy € R"» *”% während der ersten 2s. Für das 
gewahlte Beispiel der Polynomvorgabe gilt ng = so’) = 15 und ny = AHD + np = 20. 
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Abbildung 4.12: Kosten r(a(t), v(t), w(t)) und kumulierte Kosten K r(a(7), £r(T), u(T)) dr für das Beispiel 
der Polynomvorgabe im Vergleich zur stationären Sollzustandsvorgabe. 


4.2.5.5 Einfluss von Messrauschen 


Abschließend wird für das gegebene Simulationsbeispiel noch der Einfluss von weißem Gauß- 
schem Messrauschen mit unterschiedlicher Standardabweichung dom, das zu x(t) addiert wird, 
untersucht. Hierbei wird die zuvor verwendete Solltrajektoriendarstellung der Polynomvorga- 
be wie in Abschnitt 4.2.5.4 verwendet. Abbildung 4.13 zeigt den Zustandsverlauf x(t) sowie 
die Stellgröße u(t) für Standardabweichungen des Messrauschens von om = 0 bis om = 2. 
Ein Messrauschen bis om = 0,2 führt zu kaum merklichen Abweichungen. Bis zu einem Mess- 
rauschen von om = 1 bleibt der geschlossene Regelkreis stabil und kann der vorgegebenen 
Solltrajektorie folgen. Für om = 2 resultiert ein instabiles Regelgesetz. Die Fehlernorm im 
Vergleich zum optimalen Regelgesetz ist für unterschiedliches Messrauschen in Abbildung 4.14 
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gegeben. Dabei ist zu erkennen, dass der gelernte Regler mit zunehmendem Messrauschen 
stärker vom Optimalregler abweicht. Für om = 2 divergiert K für das Beispielszenario. 


Zwar weisen in allen betrachteten Fällen die Datenmatrizen D, und Dy vollen Rang auf 
und das Messrauschen begünstigt diese Tatsache sogar, jedoch ist das Systemverhalten bei 
zu starkem Messrauschen im Vergleich zur Systemanregung nicht mehr adäquat in den 
Messdaten repräsentiert®. Somit treten auch hier vergleichbare Effekte wie im zeitdiskreten 
Fall in Abschnitt 3.3.4.4 auf und die Notwendigkeit einer geeigneten Systemanregung verstärkt 
sich insbesondere im Fall vorhandenen Messrauschens. 


ml — 11|,,=0,5 | i eae zilo, =0 
T 


6 


Ti (t), Tr,1 (t) 


Abbildung 4.13: Sollzustandsverlauf x;,ı (t), Zustandsverlauf aj (t) und Stellgröße u(t) für das Beispiel der Poly- 
nomvorgabe unter Einfluss von Messrauschen. 


86 Um stärkeres additives Messrauschen handhabbar zu machen, kann hingegen (im Rahmen der numerischen 
Grenzen) mit einer größeren Systemauslenkung während der Datenaufzeichnung gearbeitet werden, d. h. bei- 
spielsweise mit einem stärkeren Anregungsrauschen. Für exp) = 30 und ein durch om = 2 beschriebenes 
Messrauschen ergibt sich die Fehlernorm des gelernten Regelgesetzes beispielsweise zu 4,2 und der geschlossene 
Regelkreis ist stabil. Diese Wahl des Anregungs- und Messrauschens führt zu einer ähnlichen Abweichung vom 
optimalen Regelgesetz wie zuvor mit exp] = 1 und om = 1 mit einer Fehlernorm von 4,7. 
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Abbildung 4.14: Gewichtsfehlernorm |K t)- K x |, für das Beispiel der Polynomvorgabe unter Einfluss von 
Messrauschen. Während der ersten 2s werden M = 200 Datentupel aufgezeichnet. 


4.3 Zusammenfassung 


In diesem Kapitel wurde erstmals eine allgemeine Definition zeitkontinuierlicher ADP-kom- 
patibler Solltrajektoriendarstellungen vorgestellt. Des Weiteren wurde eine neuartige Klasse 
ADP-kompatibler Solltrajektorien in Form einer Superposition von Lösungen homogener li- 
nearer Differenzialgleichungen präsentiert und analysiert. Diese verallgemeinerte Darstellung 
inkludiert insbesondere konstante Sollzustandsvorgaben, Polynomverläufe, Exponentialfunk- 
tionen und harmonische Funktionen. Für LQ-Solltrajektorienfolgeregelungsprobleme mit 
gegebenenfalls gedämpfter Solltrajektoriendynamik, die diese neue, ADP-kompatible Solltra- 
jektoriendarstellung nutzen, wurde unter milden Annahmen die Existenz und Eindeutigkeit 
der stabilisierenden optimalen Lösung gezeigt. 


Die Einbeziehung des durch den Parameter c repräsentierten Solltrajektorienverlaufs in die 
Value Function V ermöglicht schließlich ein ADP-basiertes, modellfreies Erlernen sowohl der 
optimalen Value Function als auch des zugehörigen Regelgesetzes. Der hierzu verwendete 
ADP-Algorithmus ist dabei grundsätzlich austauschbar, beispielhaft wurde die IRL-basierte 
Value Iteration nach Bian und Jiang [BJ16a] genutzt. Der für den Trainingsvorgang verwendete 
Solltrajektorienparameter G,,.n folgt hierbei während eines Integrationsintervalls der Dauer 
Tir der durch D— I beschriebenen Dynamik und wird nur zu Beginn der neuen Integrations- 
intervalle zugunsten einer ausreichenden Anregung neu initialisiert. Insbesondere gehören die 
während des Trainings verwendeten Datentupel (&(t;), ©;,&(1;+Tiı)),5 = 1,...,M, (vgl. 
Anhang B.8) daher zu ADP-kompatiblen Solltrajektorien (vgl. auch Bemerkung 3.1). Aufgrund 
der in Abbildung 4.3 gezeigten parallelen Struktur von ¢(t) und G,,.(t) kann der Parame- 
ter c, der den Solltrajektorienverlauf aus lokaler Perspektive zum Zeitpunkt t beschreibt, 
jederzeit beliebig vorgegeben werden. Der im vorliegenden Kapitel vorgestellte Ansatz kann 
letztlich als Übertragung der ADP-kompatiblen zeitdiskreten Methode aus Abschnitt 3.2 auf 
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zeitkontinuierliche Systeme interpretiert werden’. Als Grenze des Ansatzes lässt sich nennen, 
dass in der Zukunft liegende Sprünge durch die Solltrajektoriendarstellung nach (4.7) nicht 
exakt abgebildet, sondern lediglich approximiert werden können. Zudem muss der Einfluss 
der Systemanregung auf die Trainingsdatentupel signifikant stärker sein als der Einfluss des 
Messrauschens (vgl. Abschnitt 4.2.5.5). Letzteres ist jedoch kein spezifisches Problem der 
ADP-kompatiblen Solltrajektorienfolgeregelung, sondern Systemidentifikationsproblemen 
und adaptiven Methoden inhärent (vgl. [Bit84], [KT04, S. 122]). 


Die vorgestellten Simulationsergebnisse zeigen die Flexibilität der vorgestellten Methode 
auf. So lassen sich im Rahmen ADP-kompatibler Solltrajektoriendarstellungen vielfältige 
Referenztrajektorienverläufe in modellfreie zeitkontinuierliche ADP-Algorithmen integrieren. 
Die explizite Abhängigkeit der gelernten Value Function und des zugehörigen Optimalreg- 
lers vom Parameter c erlaubt im Gegensatz zu bestehenden Ansätzen einerseits, vielfältige 
Solltrajektorien von außen vorzugeben, andererseits kann hierdurch der zukünftige Verlauf 
der Solltrajektorie berücksichtigt werden. Insbesondere führt die Einbeziehung des Solltra- 
jektorienverlaufs zu einem vorausschauenden Verhalten, das, im Vergleich zu einer aus der 
Literatur bekannten konstanten Sollwertvorgabe, mit deutlich reduzierten Gesamtkosten kor- 
reliert. Somit beantworten die neuartigen, flexibel einsetzbaren Mechanismen für ADP-basierte 
Solltrajektorienfolgeregler die in Abschnitt 2.4.1 formulierte Forschungsfrage 1 nach ADP- 
kompatiblen Solltrajektoriendarstellungen und deren Integration in modellfreie ADP-Ansätze 
für den zeitkontinuierlichen Fall. 


87 Aufgrund der Stetigkeitsanforderungen nach Definition 4.1 sei an dieser Stelle angemerkt, dass eine direkte 


Übertragung der in Abschnitt 3.3 vorgestellten zeitdiskreten Repräsentation, welche beliebige Sprünge innerhalb 
des Vorausschauhorizonts exakt berücksichtigt, auf den zeitkontinuierlichen Fall nicht möglich ist. 


5 Konvergenzbedingungen 
zeitkontinuierlicher adaptiver 
Optimalregler 


Ein zentrales Element ADP-basierter Optimalregler stellt eine geeignete Anregung des Systems 
dar. Diese ermöglicht adaptiven Optimalreglern, Informationen über das Systemverhalten 
sowie die damit verbundenen Kosten zu gewinnen und sich kostenoptimal anzupassen (vgl. 
Abschnitt 2.3, (3.29), (3.115), (B.37) und (B.40)). 


Den Ausgangspunkt des vorliegenden Kapitels?® bildet daher die Analyse der zeitkontinuierli- 
chen PE-Bedingung (2.27) und deren Bedeutung für die Konvergenz eines gradientenbasierten 
Policy-Evaluation-Schrittes (vgl. Abschnitt 2.1.4). Betrachtet wird hierbei ein zeitkontinuierli- 
ches, eingangsaffines Differenzialspiel, das eine Generalisierung des durch (2.10) und (2.11) 
gegebenen Optimierungsproblems darstellt. Auf dieser Basis wird der zentrale Beitrag dieses 
Kapitels in Form von hinreichenden Bedingungen an den Systemzustand, die garantieren, 
dass das zur Adaption benötigte Signal die PE-Bedingung erfüllt, hergeleitet. Dieses Signal 
folgt bei Verwendung polynomieller Basisfunktionen zur Critic-Funktionsapproximation aus 
einer nichtlinearen Transformation des Systemzustands. Aufbauend auf diesen theoretischen 
Erkenntnissen wird schließlich am Beispiel eines exakt zustandslinearisierbaren Systems 
ein geeignetes Anregungssignal mithilfe eines Vorsteuerungsentwurfs konstruiert, um Si- 
mulationen zu ermöglichen. Anhand dieses Simulationsbeispiels werden die vorgestellten 
Anregungssignale mit einer Anregung durch weißes Rauschen verglichen und Unterschiede 
diskutiert. 


In den Abschnitten 5.1-5.3 erfolgt zunächst eine Einführung und Analyse in die betrachte- 
te Problemstellung, bevor in den Abschnitten 5.4-5.7 die Hauptergebnisse dieses Kapitels 
präsentiert werden. 


5.1 Eingangsaffines Differenzialspiel mit unbekannten 
Gegenspielern 
In diesem Kapitel werden eingangsaffine Differenzialspiele, bei denen die Spieler a priori 


kein genaues Modell über das Verhalten der jeweils anderen Spieler besitzen, gemäß der 
nachfolgenden Definition betrachtet. Um die Ziele der N auf ein System einwirkenden Regler 


8 Dieses Kapitel basiert auf einem im Rahmen der vorliegenden Arbeit entstandenen eigenen Beitrag [KKBH23]. 
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formal definieren zu können, wird zudem das Lösungskonzept des Nash-Gleichgewichts 
gemäß Definition 5.2 herangezogen®”. 


Definition 5.1 (Eingangsaffines Nicht-Nullsummen-Differenzialspiel mit un- 
bekannten Gegenspielern) 

Ein eingangsaffines Nicht-Nullsummen-Differenzialspiel mit unbekannten Gegenspielern 
sei charakterisiert durch: 


1. Eine eingangsaffine Systemdynamik 


mit dem Systemzustand x € R”, dem Anfangszustand xo und den Stellgrö- 
ßen u; € R”? der N Regler (auch Spieler genannt, ie N = {1,2,...,N}, 
N € N>, f : R” > R” undg, : R” — R"“Pi. Die Kurzschreibweisen 
g(@) = [gıl@) 92(®) = gnl@)]l.g: R" > R™?, p = Yi pi und 
U= [ut ul = ug] € RP werden zur Vereinfachung der Notation ver- 
wendet. Der Initialzeitpunkt to wird o. B. d. A. zu to = 0 gesetzt. Zudem seien f(x) 
und g(a) Lipschitz-stetig auf der kompakten Menge X C R”, die den Ursprung 
enthält. Außerdem gelte f(0) = 0. Das System sei stabilisierbar auf X. 


. Die Gütemaße 


a N 
Ilzo muzun) = f alel) +Y H (e0)Riyn; (@(r)) àr 


= ih ri(£, H1, H2,- --; HN) dr, (5.2) 
0 


wobei qi : R” — R eine positiv definite Funktion (im Sinne von [NA05, S. 53]) 
darstellt, und Rij = 0,Vj E N,i # j, und Ri = RI, > 0 gilt. 


. Das Ziel jedes Reglers ic N, ein Regelgesetz u‘(x) zu finden, wobei 
{ui,..:,AÄr} eine Feedback-Nash-Lösung (vgl. Definition 5.2) darstellt und aus 
Sicht von Regler i 


a) die Systemdynamik bekannt ist, 
b) Messungen von x(t) und u, (t), j € N, verfügbar sind” 


c) und Gütemaße J; und Regelgesetze u; (x) der anderen Spieler, d. h. Vj # i, 
unbekannt sind. 


® Dadurch u;, i € {1,2,..., N}, im Folgenden Zustandsrückführungen bezeichnet werden, handelt es sich 
hierbei um ein sogenanntes Feedback-Nash-Gleichgewicht (vgl. [BO99, Abschnitt 6.5.2]). 
” Die Notation p,(t) stellt Zeitsignale dar, im Gegensatz zu Regelgesetzen p; (a). 
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Definition 5.2 (Nash-Gleichgewicht [BO99, Definition 4.1]) 
Ein N-Tupel {yi,...,wir} stellt ein Nash-Gleichgewicht eines N-Spieler-Nicht- 
Nullsummen-Differenzialspiels mit unendlichem Optimierungshorizont dar, wenn 


ViEN,N = {1,2,...,N}, 


Ji (0, iy s Mis.) Bn) < J; (0, 1,5 Mir.) by) (5.3) 


gilt. 


Da in diesem Kapitel der Fokus auf der Analyse und Erfüllung der PE-Bedingung liegt, wird 
im Folgenden der Regulationsfall behandelt. Die Erweiterbarkeit des Differenzialspiels nach 
Definition 5.1 auf den Solltrajektorienfolgeregelungsfall wird jedoch in der nachfolgenden 
Bemerkung skizziert. 


Bemerkung 5.1 

ADP-kompatible Solltrajektorien nach Definition 4.1, wie beispielsweise die in Ab- 
schnitt 4.2.1 vorgestellte zeitkontinuierliche Solltrajektoriendarstellung, können in diesem 
Differenzialspiel nach Definition 5.1 prinzipiell ebenfalls verwendet werden. Hierzu wird 
anstelle des Systemzustands æ (t) der erweiterte Systemzustand x(t) := [æT (t) ¢™(t)] : 


mit C(t) = D(t) (vgl. (4.19)) bzw. ¢(t) = D’((t) (vgl. (4.48)) betrachtet. Neben einer 
geeigneten Anregung von a(t), die grundsätzlich, ähnlich wie im vorliegenden Kapitel, 
über die Stellgröße u(t) erfolgen kann, muss dabei zusätzlich ¢(t) angeregt werden. Dies 
kann, insbesondere bei Off-Policy-Algorithmen, prinzipiell über die Wahl von ¢(t) wäh- 
rend des Trainingsvorgangs erfolgen (vgl. auch Abbildung 4.3, Abbildung 6.4 und (6.33) 
fiir die Anregung von Solltrajektorienparametern Q). 


5.2 Policy Iteration für 
Nicht-Nullsummen-Differenzialspiele 


Für die Lösung des Nicht-Nullsummen-Differenzialspiels nach Definition 5.1 soll im Folgenden 
der Policy-Iteration-Algorithmus für Differenzialspiele (vgl. [SLW17, Algorithm 1], [LLW14, 
Algorithm 1], [VL11, Algorithm 1]) genutzt werden. Ausgehend von den Gütefunktiona- 
len (5.2) wird zunächst ein Maß definiert, das die akkumulierten Kosten beschreibt, die dem 
Regler i entstehen, wenn sich das System zum Zeitpunkt t im Zustand a(t) befindet und die 
Regelgesetze y(x) = [u] (£) --- ph(a)] T angewandt werden. Damit die Gesamtkosten 
endlich sind und das gesuchte Maß existiert, ist die nachfolgende Definition erforderlich. 
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Definition 5.3 (Zulässige Regelgesetze*! [VL11, Definition 1]) 


Die Regelgesetze u, (x), Vi € N, werden als zulässig bezüglich (5.2) auf der Menge X 
bezeichnet (u(x) = [ut (£) --- ph(x)]' € W(X)), wenn gilt: 


1. p(x) € CA), 
2. #,(0) = 0, 
3. u(x) das System (5.1) auf X stabilisiert und 


4. die Gütemaße J; nach (5.2) Yao € X endlich sind. 


Für u(x) € Y(X) sind die Value Functions V”, i € N, dann analog zu (2.12) durch 


Vil (æ) = V#(æ(t)) = | ri(@, H Ha,- HN) AT 6.4) 


definiert. Zudem gelte Annahme 5.1. 


Annahme 5.1 


Sei V} (æ) € CHR). 


Aus (5.4) ergeben sich die Lyapunov-Gleichungen 


0 = r;(®, 1... Uy) + (Va Vt (æ))" (f + gu) (5.5) 
(vgl. [VL11, LLW14]), bzw. für u = u* und V” (æ) = ve (a) =: V;* (a) die HJB-Gleichungen 
0 = ri(a,py,..., HN) + (VeV;*(@))" (Fran). (5.6) 

Mithilfe der Definition der Hamilton-Funktion?? 
H,(a, VeVi, mM) = ri(®, ha, -< <; Hy) + (VaVi(@))" (F + gu) (5.7) 


lässt sich mit Algorithmus 5.1 ein Lösungsalgorithmus in Form einer Policy Iteration für 
das Differenzialspiel gemäß Definition 5.1 angeben. Dies folgt aus Satz 5.1 (vgl. [SLW17, 
Theorem 2]), wobei die Konvergenz gegen V;*, Vi € N, gerade der Nash-Lösung entspricht 
(vgl. [KKD14, (3)]). Die Policy Iteration kann entweder fortgeführt werden oder durch eine 
Abbruchbedingung, beispielsweise bei Konvergenz von vi, Vi € N, beendet werden. 


Satz 5.1 (Konvergenz der Policy Iteration) 
u 


Es seien u; (x) und vi! (x), i € N, wie in Algorithmus 5.1 gegeben und X kompakt. 


Dann konvergiert die Folge v" fürl > oo gegen V*. 


(engl.): admissible policies. 
Gleichung (5.7) ist als Funktion mit beliebigem V; und p zu verstehen, es muss also nicht notwendigerweise 
Vi = Vf gelten. 
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Beweis: 
Siehe [SLW17, Theorem 2]. 


Algorithmus 5.1 Policy Iteration für Differenzialspiele ([SLW17, Algorithm 1], [LLW14, 
Algorithm 1], [VL11, Algorithm 1]) 


1: Initialisiere Iterationsindex l := 0, Initialregler ul] € U(X). 
Schritt 1 (Policy Evaluation): 
2: Vi € N, finde vere, sodass gilt: 
i 
0=ri (apk, ve saN) + (ver ()) (3 + gu") ; (5.8a) 
vito) =0. (5.8b) 


Schritt 2 (Policy Improvement): 
3: Vi € N, aktualisiere das Regelgesetz 


pe (x)= argmin H; (x, Va V! +" (£), Uy,--- sun) 


pil(æ)Et (X) (5.9) 


4: und setze l := l + 1. Gehe zu Schritt 1. 


5.3 Funktionsapproximation und Anregungsbedingung 


Das Lösen der nichtlinearen Lyapunov-Gleichungen (5.8) im Policy-Evaluation-Schritt in 
Algorithmus 5.1 stellt im Allgemeinen eine nicht-triviale Herausforderung dar (vgl. [VL11], 
[LLW14]). Die Value Function wird daher durch lineare Funktionsapproximation (siehe Ab- 
schnitt 2.1.3 sowie [BBdE10], [VL11] und [LLW14]) approximiert, d.h. 


vl (æ) = w!" g(x) + d(x) (5.10) 


mit den Basisfunktionen &, : R” — R”, beschränkten Gewichtungsvektoren wl” € R” und 
beschränkten Approximationsfehlern él! (x) € C!(X), die im Allgemeinen durch die endliche 


i 
Dimension h; der Funktionsapproximatoren @, resultieren können (vgl. [VL10]). Zudem sei 


Vč (a) = wi", (a) + &(x), (5.11) 


t 
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mit konstanten und beschränkten optimalen” Gewichtungsvektoren w* € R”: und be- 
schränkten Approximationsfehlern e;(a). Um die Notation übersichtlicher zu gestalten, wird 
zunächst die folgende Annahme getroffen”. 


Annahme 5.2 


Seien el! (æ) = 0, VI, Vi € N, und somit auch e;(x) = 0. 


i 


Da die optimalen Gewichte w¥ des Differenzialspiels und auch die optimalen Gewichte wir" 


des Policy-Evaluation-Schrittes (5.8) a priori unbekannt sind, werden die geschätzten Value 
Functions zu 


va) = we.) (5.12) 


a 


mit den geschätzten Gewichtungsvektoren ôl € R" definiert. Ziel der ADP-basierten Regler 
AU 


ist somit, die Gewichte Ù; anzupassen, um im Policy-Evaluation-Schritt (5.8) die Lösungen 


wir" und letztlich die Nash-Lösungen 


lim w = w* (5.13) 


I-00 i 
(vgl. Satz 5.1) zu bestimmen. Solange jedoch ôl! # w! gilt, ist im Allgemeinen vt x yl. 
Daher wird im Folgenden ein Gradientenabstiegsverfahren zur Adaption von ôl im Policy- 


1 N 
die geschätzten Regelgesetze in der l-ten Iteration der Policy Iteration. 


A 
Evaluation-Schritt analysiert. Nachfolgend bezeichnet pl (x) = [a (a) vee Ne) 


Die Hamilton-Funktion (5.7) kann als Maß zur Fehlerbeschreibung des Policy-Evaluation- 
Schrittes (5.8) betrachtet werden. Es gilt 


Hi(2, VeVi", al) el...) + (F+ on!) 


Seat cs) 


[+17 OG; (@) 
A Ox 


(5.14) 


N 
+ú F(x) + Do g) 
j=l 


a (+1 
=r F w! Ite, 


°3 Als optimale Gewichte werden im Rahmen dieses Kapitels Gewichte bezeichnet, die eine Lösung im Sinne des hier 


gewählten Lösungskonzepts (Nash-Gleichgewicht nach Definition 5.2) für das durch (5.1) und (5.2) beschriebene 


Differenzialspiel darstellen. 


?4 An entsprechenden Stellen werden Hinweise auf den Einfluss von l (x) A 0 gegeben (vgl. beispielsweise 


Bemerkung 5.2). Zudem sei für eine Diskussion des Einflusses nicht-exakter Funktionsapproximation auf [AKL05], 
[VL11] und [LLW14] verwiesen. So wird beispielsweise in [VL11, Proposition 2] gezeigt, dass für u(z) € U(X) 
bei geeigneter Wahl der Basisfunktionen ¢; für h; — oo der Einfluss des Approximationsfehlers ll (x) 
verschwindet. 
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wobei die Kurzschreibweise o; = 


39,2) | i eingeführt wurde. Die Minimierung des 
U 


Quadrats der Hamilton-Funktion 4 (Hi (x, AUGEN bezüglich w wl! + mittels Gra- 


dientenabstieg liefert die Adaptionsgesetze 


dol! a o (Hi(x, VaV, a): T 


(5.15) 
EN: (x. vr, A) o 


l+1 
= Mm (ri + afer Ir ai) Oi 
mit den Lernraten 7; € Ryo. 


Mit vr! = ve" (x), d.h., wenn vie die Lösung des Policy-Evaluation-Schritts zum 
aktuellen Regelgesetz pl! darstellt, gilt nach (5.5) und (5.10) 


=...) + (vv? @)) (F +90") 


En (Ve CAO + ey (x)))' (3 + ai") 


f (5.16) 
=r; + olw! tt + (vaa) (3 + git!") 
= ri +0; Tw! t! + et, 


+ 
wobei der Fehler ekru = (val (æ)) G + ai") verschwindet, wenn eine exakte 
Approximation möglich ist, also ae (a) = 0 nach Annahme 5.2 gilt. 

Aus der Definition des Gewichtsfehlers wl = wir _ wer 
mik bei Verwendung des Gradientenabstiegs (5.15) zu 


ergibt sich die Fehlerdyna- 


dot dll 


a= =n; (ri pa ig ) a 
l ~ |l 
= Nii (r: + o! (w! pru _ a!) (5.17) 
= -nioo lolt + moi (ri +olw = 
= -noo lolt" — moi, 


wobei der letzte Schritt unter Verwendung von (5.16) resultiert. 


Um die Konvergenzeigenschaften der zentralen Fehlerdynamik (5.17) zu analysieren, wird zu- 
nachst die folgende Definition, welche die Anregung eines Signals mathematisch formalisiert, 
benötigt. 
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Definition 5.4 (PE-Funktionen nach [NA05, Definition 6.2]) 

Eine stückweise stetig differenzierbare, beschränkte Funktion (vgl. [NA05, Definition 6.1]) 
o : Rso > R” wird als persistently excited (PE) für alle t > to” bezeichnet, wenn es 
positive Konstanten a, ar, T € R>o gibt, sodass die äquivalenten Beziehungen” 


t+T 
i o(r)e'(r)dr=al (5.18) 
t 


t+T 
a \(a(r))" el dr > ay (5.19) 


für alle t > to und jeden Einheitsvektor e € R? gelten. Die Konstanten a bzw. aı werden 
als Grad der PE-Bedingung bezeichnet. 


Basierend auf den Ergebnissen aus [NA05], [VL10] und [MN77] lassen sich damit die folgenden 
Konvergenzeigenschaften formulieren. 


Lemma 5.1 (Konvergenz der Critic-Gewichte) 


Seien TA ee a zeitinvariante, nach Definition 5.3 zulässige Regelgesetze und 


Annahme 5.2 erfüllt. Die Critic-Gewichte wir zur Approximation der Lösung vr 


der Lyapunov-Gleichungen (5.8) (Policy-Evaluation-Schritt) gemäß (5.12) werden durch 
den Gradientenabstieg (5.15) angepasst. Dann folgt, dass die Gewichtsfehler 

wl) = wlth — 9 (5.20) 
genau dann exponentiell gegen null konvergieren, wenn o; PE nach Definition 5.4 ist. 
Dabei gilt Vk € N>o 


[atar] < exp G m) at o| (5.21) 
a 2 


Timok; 
(1 + To? ja 


i,max 


Pi al 


wobei Oi max 2 lilo. 


° Der Zeitpunkt to, ab dem die Funktion ø PE ist, ergibt sich üblicherweise aus dem Kontext. Im Folgenden sei 


to = 0, sofern nicht anders definiert. 
% Die Äquivalenz ergibt sich direkt aus [NA05, Theorem 2.16]. 
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Beweis: 

Unter Annahme 5.2 ist im Fall 7; = 1 nach [MN77, Theorem 1] (5.19) notwendig und hin- 
reichend für die gleichmäßige asymptotische Stabilität der Ruhelage von (5.17). Nun ist laut 
(5.18) o; mit a; und T; genau dann PE, wenn o; = \/njo; PE mit a; = na; und T;, Yni > 0, 
ist. Zudem ist g; genau dann PE, wenn 


ag 7 
— = -mool olt" (5.23) 


gleichmäßig asymptotisch stabil ist (vgl. [MN77, Theorem 1]). Aufgrund der Linearität von 
(5.23) ist gleichmäßige asymptotische Stabilität identisch zu exponentieller Stabilität, weshalb 
o; genau dann PE ist, falls (5.23) exponentiell stabil ist. Die Abschätzung der Konvergenz- 
geschwindigkeit p; in (5.22), welche die exponentielle Abnahme der Gewichtsfehler nach 
(5.21) charakterisiert, wird analog zu [NA05, Theorem 2.16] bestimmt (vgl. [VL10, Technical 
Lemma 2]). 


Bemerkung 5.2 


Im Fall einer nicht exakten Approximierbarkeit der gesuchten Value Function Va durch 


wlt, d. h., falls Annahme 5.2 nicht erfüllt ist, sondern beschränkte Approximationsfehler 
eae < ace bestehen bleiben, resultiert exponentielle Konvergenz von alt" 


die Nachbarschaft von null [VL10, Technical Lemma 2]. 


Die Policy Evaluation (5.8) kann somit durch die Adaption gemäß (5.15) bis zur Konvergenz von 


wi, Vi € N, erfolgen. Aus den approximierten Value Functions vier nach Konvergenz 
des Gradientenabstiegsverfahrens gemäß (5.15) folgen nach (5.9) im Policy-Improvement- 


Schritt die approximierten Regelgesetze 


ale) = Rate (HAN al 6.24) 


Ox 5 


Aufgrund des analytischen Zusammenhangs der approximierten Regelgesetze zu den Critic- 
Gewichten w; sind nach Liu et al. [LLW14] somit keine gesonderten Funktionsapproximatoren 
zur Beschreibung der Regelgesetze (sogenannte Actors, vgl. Abschnitt 2.1.3) notwendig. 


Damit stellt die Policy Iteration nach Algorithmus 5.1 ein Lösungsverfahren gemäß Definiti- 
on 5.1 dar”. Da Lemma 5.1 belegt, dass die Erfüllung der PE-Bedingung nach Definition 5.4 not- 
wendig und hinreichend für die exponentielle Konvergenz der durch wlth = with we, 


i € N, gegebenen Critic-Gewichtsfehler im Policy-Evaluation-Schritt unter Verwendung ei- 


nes Gradientenabstiegs nach (5.15) ist, untersucht der Rest dieses Kapitels Bedingungen zur 
Erfüllung der PE-Eigenschaft von o;. 


°7 Im Fall einer nicht exakten Approximation der Value Function folgt neben der Konvergenz der Policy Evaluation 


gegen die Nachbarschaft von wirt (vgl. Bemerkung 5.2) auch Konvergenz der Policy Iteration gegen die 


Nachbarschaft der optimalen Lösung (vgl. [AKL05, Theorem 4], [VL11]). 
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5.4 Hinreichende Bedingungen zur Erfüllung der 
PE-Eigenschaft in ADP-basierten Differenzialspielen 


In diesem Abschnitt werden für den im ADP-Kontext häufig verwendeten Fall polynomieller 
Funktionsapproximatoren Bedingungen an den Systemzustand x(t) hergeleitet, die garan- 
tieren, dass ø; die PE-Eigenschaft erfüllt. Diese neuen hinreichenden Bedingungen können 
in ADP-basierten Problemen genutzt werden und bilden die theoretische Basis, um in Ab- 
schnitt 5.6 beispielhafte Anregungssignale zu entwerfen. Formal seien die Basisfunktionen 


&,(x) wie folgt beschrieben. 


Annahme 5.3 (Basisfunktionen ¢;(x)) 
Die Elemente der Basisfunktionen &,(x),i € N, seien Yh € {1,...,h} gemäß 


ame N20 


gewählt, sodass 3j € {1,...,n} : fijn #0 und Pap SE 


Um das Signal x formal mit der PE-Eigenschaft der transformierten Signale o; = d;(®) in 
Zusammenhang zu bringen, wird der Begriff sufficiently rich (SR)”® definiert. 


Definition 5.5 (SR-Signal) 

Sei S{-} die Transformation eines Signals, die aus der Zusammenschaltung von Integra- 
toren, Differenziatoren und nichtlinearen, Lipschitz-stetigen Funktionen bestehen kann. 
Das Signal x(t) : R>ọ > R” wird als sufficiently rich (SR) bezüglich S bezeichnet, 
wenn S{a(t)} PE ist. 


Somit ist o; PE, wenn x(t) SR bezüglich @, (a) ist. Daraus resultiert die folgende Problem- 
stellung fiir dieses Unterkapitel. 


Problem 5.1 
Sei d,(x) Vi € N wie in Annahme 5.3. Gesucht ist x(t), sodass Vi E€ N das durch 


a; = d,(x(t)) gegebene Signal die PE-Eigenschaft nach Definition 5.4 erfüllt, d. h. x(t) 


SR bezüglich &,(&) ist. 


°8 Boyd und Sastry [BS86] definieren den Begriff der SR-Signale für lineare Systeme (im Zusammenhang des Model 


Reference Adaptive Control) mit skalarem Eingang. Die in der vorliegenden Arbeit vorgestellte Definition kann 
daher als Verallgemeinerung auf den mehrdimensionalen und nichtlinearen Fall verstanden werden. 
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Da das zur Adaption verwendete Signal o; = &;(x) aus nichtlinearen Basisfunktionen &, (x) 
resultiert”, kann diese Transformation von æ(t) nicht mithilfe klassischer Eigenschaften 
linearer Transformationen aus der PE-Literatur [NA05], [NA87] analysiert werden. So kann, 
abhängig von &,(x), das Signal ø; PE sein, obwohl æ nicht PE ist, oder umgekehrt [LK98], 
[LK99]. Dies ist in Beispiel 5.1 illustriert. 


Beispiel 5.1 


1. x ist PE > o; ist PE 
Mit der PE-Funktion 


au cos(wt) 


E cos(2wt) 
2 


|, 240, una gia) = [73] 


folgt, dass 
—w sin(2wt) 
—w sin(2wt) 


keine PE-Funktion ist. 


2. x ist PE + cg; ist PE 
Zwar stellt 


w cos(wt) 
w el 


folgt jedoch, dass o; eine PE-Funktion ist. 


Somit ist die Erfüllung der PE-Eigenschaft von x weder notwendig noch hinreichend dafür, 
dass ø; PE ist. Beispiel 5.1 veranschaulicht, dass durch polynomielle Basisfunktionen &, (x) 
aufgrund deren nichtlinearen Charakters im Vergleich zu æ sowohl Frequenzen ausgelöscht, 
als auch zusätzliche Frequenzen erzeugt werden können. Motiviert durch diese Erkenntnis ist 
die zentrale Idee im Folgenden, diese Frequenzen zu analysieren. Um Trajektorien a(t) zu 
finden, die eine Lösung von Problem 5.1 darstellen, wird zunächst die folgende allgemeine 
Struktur einer Anregungstrajektorie £pg(t) angesetzt. 


” Selbst für den Spezialfall eines linear-quadratischen Differenzialspiels mit linearer Systemdynamik und quadrati- 


schen Gütefunktionalen ist @; (a) nichtlinear. 
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Annahme 5.4 (Anregungstrajektorie £pg(t)) 


Die Anregungstrajektorie zpz(t) = [Xrr,ı(t),--- ‚Xpr.n(t)] T des Systemzustands z (t) 
wird Vo € {1,...,n} zu 


(5.30) 


9j,0, Jj,o € R, gewählt, sodass 


Li Vore (ipa tp ap ele. sth Op Woder Gg: 6 À 


2. |9;,0| < © und |G;,0| < co und 
I <<, 


Hierbei sind 4,...,Wm  Frequenzvariablen, die den  Frequenzvektor 
w= [w ... Wm)’ €R” bilden. 


In den nachfolgenden Schritten wird der Spielerindex i 0.B.d. A. vernachlässigt, um die 
Notation übersichtlicher zu gestalten. Zum Ende des Abschnitts werden schließlich wieder 
alle N Spieler berücksichtigt. Der Frequenzvektor w soll nun so gewählt werden, dass app (t) 
SR bezüglich p(x) ist. Unter Annahme 5.3 und Annahme 5.4 resultiert das folgende Lemma, 
das die in @(apz) auftretenden Frequenzen beschreibt. 


Lemma 5.2 


Werden p(x) und ap_(t) gemäß Annahme 5.3 und Annahme 5.4 gewählt, so ergeben 
sich die Elemente von &(xpr) zu 


Kj, 


F > CHR cos(@; pt) ar es (5.31) 
Kl 


Vh € leah mit al h Cka E Ryo, ep € R und 


m 
w= Y bpa (5.32) 
j=l 


m 
Dep = Y dane, (5.33) 
j=l 


wobei bii n» dj,x,n © R. Zudem gilt für die oberen Summengrenzen L}, K}, € N>o 


ip t Kr > l, Vine filesi (5.34) 
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Beweis: 
Der Beweis ist in Anhang C.1 skizziert. 


Im Folgenden werden durch eine Analyse der Frequenzen w; 7, nach (5.32) und ©, 7, nach (5.33), 
die aus der nichtlinearen Transformation d(&pr) resultieren, ausschließende Bedingungen an 
die Frequenzen w hergeleitet, sodass (ape) PE ist. Hierbei wird das nachfolgende notwendige 
und hinreichende Kriterium fiir mehrdimensionale PE-Signale genutzt. 


Lemma 5.3 


Sei a(t) : Ryo > R”. Das Signal ø (t) ist genau dann PE, wenn at a(t) für jeden kon- 


stanten Vektor œ € R” mit œa + O mindestens eine Spektrallinie im Frequenzspektrum 
aufweist. 


Beweis: 
Das Signal ø (t) ist genau dann PE, wenn aø (t) für jeden konstanten Vektor a € R”, a Æ 0, 
PE ist [NA05, Lemma 6.2]. Des Weiteren ist ein skalares Signal o,(t) : R>o — R genau dann PE, 
wenn es mindestens eine Spektrallinie aufweist [NA05, Sublemma 6.1]. Mit o,(t) := alo (t) 
folgt somit die Aussage von Lemma 5.3. 


Basierend auf Lemma 5.3 wird nun eine Menge Q definiert, sodass für jeden Vektor w € Q die 
Erfüllung der PE-Bedingung von o = d(Xpr) garantiert wird. Die nachfolgende Proposition 
charakterisiert diese Menge Q. 


Proposition 5.1 


Seien d(x) und xp; in Übereinstimmung zu Annahme 5.3 und Annahme 5.4 gewählt. 
Dann ist £pp SR bezüglich b(apz) und somit oa = (app) PE Yw € Q, wenn eine 
nichtleere Menge Q C R” existiert, sodass Vw € Q und jeden konstanten Vektor œ € R 
mita #0 


L K 
alo = a'b(zp:) a 2% cos (wi DE: 2 En sin (aye t) (5.35) 
mit LO) + Ki > 1 und 


20, wi £0, 
i) 20, af" £0, 


Yiya € {e a NN zb und Ykı j2 € {1,.. ., KO), kı # ka gilt. Der Index 
(a) kennzeichnet hierbei eine Abhängigkeit von a. 
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Beweis: 
Das Signal auf der rechten Seite von (5.35) weist unter den in Proposition 5.1 gegebenen 
Bedingungen mindestens eine Spektrallinie im Frequenzspektrum auf. Dies wird, neben dem 
Auftreten mindestens einer Frequenz (L‘“) + K‘“) > 1), durch die lineare Unabhängigkeit von 
Sinusfunktionen (bzw. Kosinusfunktionen) unterschiedlicher Frequenzen sowie der linearen 
Unabhängigkeit einer Sinus- zur Kosinusfunktion derselben Frequenz gewährleistet. Da (5.35) 
für jeden konstanten Vektor a € R”, a Æ 0, gilt, folgt mit Lemma 5.3, dass o = (ape) PE 
ist. 


Um nun eine Anregungstrajektorie £pg (t) zu finden, die SR bezüglich (app) ist, genügt es 
gemäß Proposition 5.1, eine nichtleere Menge Q zu finden, die Bedingungen an die Frequen- 
zen w in pg so formuliert, dass (5.35) erfüllt ist. Die analytischen Zusammenhänge (5.32) 
und (5.33) zwischen den Frequenzen w; in £pg und den durch die nichtlineare Transformation 
eingeführten Frequenzen w 7, und ©, ; dienen hierzu im Folgenden als Ausgangspunkt. Dies 
lässt sich motivieren, da die zeitliche Ableitung von (5.31) nur den Typ der trigonometrischen 
Funktionen sowie deren Koeffizienten verändert. Die in 07, = $z (ape), Vh € {1,...,h}, 
auftretenden Frequenzen folgen direkt aus (5.31). Durch die zeitliche Ableitung von d,, (pr) 
entfällt außerdem die Konstante ez, und muss daher nicht weiter berücksichtigt werden. Zudem 
sind die genauen Werte der Koeffizienten a, 7, und cp p in (5.31) irrelevant für die Erfüllung 
von (5.35). Dies gilt, da gemäß Proposition 5.1 aufgrund von L(®) + K(% > 1 für mindestens 
eine Frequenz eine Amplitude ungleich null resultiert. 


Im Folgenden wird nun eine mögliche Menge 2. an Frequenzbedingungen gemäß Propositi- 
on 5.1 berechnet. Hierzu werden in den Abschnitten 5.4.1 und 5.4.2 zunächst die Hilfsmengen 
0) und N definiert und vereinfacht. In Abschnitt 5.4.3 folgt schließlich die Menge 


2 = 2% nn? (5.36) 


an Frequenzbedingungen sowie die theoretische Aussage, dass die durch diese Menge N 
gegebenen Bedingungen die Erfüllung von (5.35) sicherstellen. 


5.4.1 Hilfsmenge N 


Die nachfolgende Definition formuliert durch die Hilfsmenge N Bedingungen an w. Diese 
garantieren, dass sich, unabhängig von den exakten Werten der Koeffizienten und Argumente, 
für keinen Vektor w € NV die trigonometrischen Funktionen innerhalb eines Elements 
Pr, (£pe) und somit in oj, kompensieren. 


5.4 Hinreichende Bedingungen zur Erfüllung der PE-Eigenschaft in ADP-basierten Differenzialspielen 143 


Definition 5.6 (N: Einzigartigkeit der Frequenzen innerhalb jedes Elements 
od, (pe), Vhe fil, bg of h}) 


Die Menge X") an Bedingungen an die Frequenzvariable w sei durch 


h yIn-1 Li 
am le (A IN (wn REW h A Wn RAW, h) 
h 


hertil 
Kml Ea 
N N A (Or h A Tka n A Gey h A—Dheo 5) 


kı=l k2>kı 


= 


definiert. 


Somit sind für jedes w € Q nach Definition 5.6 in jedem Element ¢;,(apg), d.h. für jedes 
h € {1,...,h}, die Beträge der Frequenzen der Sinusterme einzigartig, Gleiches gilt für die 
Kosinusterme. Die Menge 0X") kann wie folgt vereinfacht werden. 


Lemma 5.4 (Vereinfachung der Menge N") 
Die durch Definition 5.6 beschriebene Menge N" lässt sich zu 


Zı 
Oo = fa : VAN clw # o}. Zı € N>0, 


Zeil 


umformulieren. 


Beweis: 

Ausgehend von (5.37) wird zunächst die Komplementärmenge N?) gebildet. Anschließendes 
Anwenden der De Morganschen Gesetze [BSMM13, S. 332] führt auf eine Menge, die durch 
die Disjunktion linearer algebraischer Gleichungen der Form w,, 7, = wı, 7, gegeben ist. Diese 
Gleichungen können in Matrixschreibweise CIw = 0 mit c, € R” überführt werden, wobei 
z einen Laufindex darstellt. 


Durch Skalierung der Zeilenvektoren c, können diese Ausdrücke jeweils auf reduzierte Zeilen- 
stufenform gebracht werden. Die Transformation der Koeffizientenmatrix eines homogenen 
linearen Gleichungssystems auf reduzierte Zeilenstufenform verändert dessen Lösungsmenge 
nicht [KB18, S. 22]. Dies gilt auch für CTw = 0 und dessen reduzierte Zeilenstufenform 
clw = 0. Werden anschließend alle mehrfach auftretenden Bedingungen eliminiert und 
abermals die De Morganschen Gesetze angewandt, so resultiert (5.38). Da diese mehrfach auf- 
tretenden Bedingungen die Menge Q nicht verändern, ist N") (5.37) identisch zu (5.38). 


144 5 Konvergenzbedingungen zeitkontinuierlicher adaptiver Optimalregler 


5.4.2 Hilfsmenge N 


Durch (5.35) in Proposition 5.1 werden Bedingungen an die gewichtete Summe der Elemente 
von o = (app) formuliert. Daher genügt eine separierte Betrachtung der Elemente ġz (apr), 
h € {1,...,h}, nicht und die Hilfsmenge 0? analysiert im Folgenden Frequenzen verschie- 
dener Einträge von #(apz). Bevor die Menge N?) an Frequenzbedingungen formal definiert 
wird, werden zunächst die Hilfsmatrizen Pf und T* gegeben. Die Spalten der Matrix Pi 
beinhalten dabei Kombinationen der Frequenzen zwischen den verschiedenen Elementen 
7, (ape) und Tf indiziert den jeweils zugehörigen Typ der trigonometrischen Funktion. 


Definition 5.7 (Repräsentation von Frequenztupeln durch P' und T’) 


Seien 
(5.39) 


Reil,...chl, > welche die Frequenzen nach (5.32) und (5.33) beinhalten. Dann 
lassen uch mit Ge CMG ela sits 


(5.40) 


unterschiedliche Tupel P; := (ce aoe ao i = 1,... , Np, definieren. Weiterhin sei 


P' eine h x Np-Matrix, deren Np Spalten die Einträge der Tupel Pı,..., Py, enthalten. 
Die Information über den jeweils zugehörigen Typ der trigonometrischen Funktion wird 
in der Matrix T' € R"XNr codiert. Hierbei wird das (h, np)-te Element von T' zu null 
gesetzt (Tt „ = 0), wenn das (h,np)-te Element Pi An, von P das Argument einer 
oa a e darstellt. Ist es hingegen das Argument einer Kosinusfunktion, so gilt 


Gemäß Definition 5.7 lassen sich folglich o. B. d. A. die Matrizen 


Drg ove) Wry + yg e Wry e Wie 1 ee Wit 
Wig vs Wyo ves WK 2 oo WK 2 +++ WK +++ YK 2 
a 2; ae te eee o = (5.41) 
Wih PE Wy h gai Wih re Win h era Wih Ery Wish 
und 
0 0 60) <2 0 1 1 
a O IN eK ar E ed i asa YE 
TSA or a es aa A ar aE te (5.42) 
Or acts. All oia? JOY Eee O dage TL 


definieren. Damit lässt sich nun N? formulieren. 


5.4 Hinreichende Bedingungen zur Erfüllung der PE-Eigenschaft in ADP-basierten Differenzialspielen 145 


Definition 5.8 (Q: Bedingungen an die Frequenzen in P) 
Mit P! (5.41) und Tf (5.42) nach Definition 5.7 sei 


f f 
es N Ehe z -PË m) 
Il 


f ae f ee 
(ce Fur, N De # Wr ) 


I, 
f Sm f EDA 
ren, N Pir m F D 


TE 2 


a 


ha,np 


a eee f an 
u FPL mp ATE up =O}, (5-44) 


f f = 
et atl 


ha,np 


Somit muss nach Definition 5.8 mindestens eine der Np Frequenzkombinationen, die durch die 
Np Spalten von P (5.41) gegeben sind, die Bedingungen innerhalb der äußersten Disjunktion 
in (5.43) erfüllen. Die zu I zusammengefassten Bedingungen fordern, dass die durch die np-te 
Spalte von P beschriebenen Frequenzterme nicht verschwinden. Bedingung II garantiert, 
dass keine zwei trigonometrischen Funktionen desselben Typs in der betrachteten Spalte von 
P' dieselbe Frequenz aufweisen. Bedingung III = III, A III, gewährleistet schließlich, dass der 
Frequenzterm see der betrachteten Frequenzkombination, d.h. der np-ten Spalte von P', 
ungleich zu den Frequenztermen desselben trigonometrischen Typs in den anderen Elementen 
Pj, (TPE), ha # hy, ist. Ungleichheit impliziert hier, genau wie in Definition 5.6, auch die 
Ungleichheit zu Frequenztermen mit gegensatzlichem Vorzeichen. 
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Analog zu Lemma 5.4 kann die Menge Q? (5.43) vereinfacht werden. Hierzu wird zunächst 
die Komplementärmenge N? , die aus der Anwendung der De Morganschen Gesetze resultiert, 
mithilfe von Algorithmus 5.2 vereinfacht. Daraus ergibt sich!” 


Np h 
Q2 fo: N (v 0 
np=1 \h=1 
h-1 


V V V (Paii =f hn V Piane =— Phs np) 
hı=l hach 
h 


V VV V (Pinne =W] ha V Prins T a) 


hij2=1 leL 
hı=ha 


h 
vV V (un Bhks¥ Prima) |) (5.45a) 


hıya=l keR 
hı=ha 


fu : (V0 =0) 


fo: (Vow 0) A N (VO=0) (5.450) 
fu : V w= o}. (5.45d) 


a (VO=0) 


N N (vo=0) | (5.45b) 


np=1 


Für den Spezialfall, dass im letzten Vereinfachungsschritt von 92, dh. für ka > Np — 1, 
wj = wj, Vj € {1,...,m}, folgt, ist die Aussage N?’ für beliebige w € R™ stets wahr und 
es resultiert 0% = R” und somit Q = Ø. Andernfalls ist Q'?) durch die Disjunktion von 
Z2 € N>ı Bedingungen der Form Cw = 0, z = 1,2,..., Z2, gegeben (vgl. (5.45d)). Dies 
wird im nachfolgenden Lemma formal gezeigt. 


100 Für den Spezialfall Np = 1 entfällt die Konjunktion mit den durch np = kit + 1 indizierten Bedingungen in 
Schritt 1 von Algorithmus 5.2 und (5.45d) folgt aus (5.45a). 
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Algorithmus 5.2 Vereinfachung von N” 


1: Initialisiere die Iterationsvariable kj, := 1. 


Schritt 1 
2: Aufstellen homogener linearer Gleichungssysteme, indem die Konjunktion der mit 
np = ki, und np = ku + 1 indizierten Bedingungen unter Anwendung des Distribu- 


tivgesetzes expandiert wird. Falls kt + 1 > Np gilt, entfällt diese Konjunktion. 
Schritt 2 
3: Lösen der linearen Gleichungssysteme nach w. Hierbei werden frei wählbare Variablen zu 
wj = wj gesetzt und die Bedingungen durch C,w = 0 (C, € R™*™) mit dem Laufindex 
z ausgedrückt. 


4: if wj = wj für jedes j € {1,...,m} then 
5 if Kit > Np — 1 then 
6: return Q? = R™ 
7 else 
8 Setze ki, := ki + 2 und gehe zu Schritt 1. 
9 end if 
10: else 
11: Setze ki, := ki + 1 und gehe zu Schritt 3. 
12: end if 
Schritt 3 


13: Transformation der Koeffizientenmatrizen C, auf reduzierte Zeilenstufenform, Entfer- 
nen aller Nullzeilen. Resultierende Matrizen werden mit C, (C, € R™*™,m < m) 
bezeichnet. 

Schritt 4 

14: Entfernen mehrfach auftretender Bedingungen (identischer C +). Alle bisher expandierten 
Konjunktionen werden anschließend zu V, Cw = 0 zusammengefasst. 

Schritt 5 

15: while ky < Np — 1 do 

16: Stelle lineare homogene Gleichungssysteme durch die Expansion der Konjunktion zwi- 

schen dem Ergebnis aus Schritt 4 und den durch np = ki, + 1 indizierten Bedingungen 


auf. Wende die Schritte 2-4 auf diese Gleichungssysteme an. 
17: end while 


18: return 92 


Lemma 5.5 (Vereinfachung der Menge N?) 


Falls Algorithmus 5.2 die Menge Q'?) = R™ ausgibt, so folgt N?’ = Ø. Andernfalls 
ist (5.43) identisch zu 


(5.46) 


mit Zo € N>1. 
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Beweis: 

Um zu beweisen, dass (5.46) dieselbe Menge wie (5.43) definiert, muss sowohl die Gültig- 
keit der Vereinfachungsschritte 3 und 4 nach Algorithmus 5.2 als auch die Korrektheit der 
Schlussfolgerungen im Fall w; = wj, Vj € {1,..., m}, in Schritt 2 betrachtet werden. 


Zunächst wird Schritt 3 analysiert. Die Transformation der Koeffizientenmatrix eines homoge- 
nen linearen Gleichungssystems auf reduzierte Zeilenstufenform verändert dessen Lösungs- 
menge nicht. Des Weiteren entsprechen Nullzeilen in C, dem Fall w; = w; und stellen somit 
Bedingungen dar, die durch N? nicht erfüllt werden können. Folglich können Nullzeilen 
in C, entfernt werden. Schritt 4 ist gerechtfertigt, da mehrfach auftretende Bedingungen 
keine weiteren Informationen hinsichtlich der Definition der gesuchten Menge beinhalten 
und somit redundant sind. 


Nun werde o. B. d. A. der Fall betrachtet, in dem sich in Schritt 2 für die durch IV gekenn- 
zeichneten Bedingungen in (5.45) w; = w; für alle j € {1,...,m} ergibt. Dann ist Teil IV 
für jedes beliebige w € R” unabhängig von anderen Bedingungen der Form C,w = 0 
in IV wahr. Somit können diese anderen Bedingungen vernachlässigt werden und Schritt 1 
muss mit np = 3 und np = 4 ausgeführt werden. Da sich diese Überlegungen ebenfalls 
auf die Wiederholungen in Schritt 5 übertragen lassen und der Spezialfall, dass w; = wj, 
Vj € {1,..., m}, in der letzten Iteration ki, > Np — 1 resultiert, explizit berücksichtigt wird, 
folgt die Gültigkeit von Lemma 5.5. 


5.4.3 Frequenzbedingungen Q 


Die aus dem Schnitt der Hilfsmengen N) und N? resultierenden Frequenzbedingungen 2 
lassen sich, wie im folgenden Lemma gezeigt, weiter vereinfachen. 


Lemma 5.6 (Frequenzbedingungen Q) 
Die Schnittmenge zwischen N" nach (5.38) und 0?) nach (5.46) mit Za € N>ı ergibt 


Zell 


Zı+Za 
Q = 2 na? xe N cwo] 


Z 
-fu: Acw rol, ZEN>ı, 


z= 


mit Z < Zı + Zo. Die letzte Gleichung resultiert, indem jede Matrix C,, entfernt wird, 
für die bereits eine andere Matrix C; , z1 # z2, in der Konjunktion (5.47) enthalten ist 
und außerdem M € R™*'™2 mit mı < ma existiert, sodass Cz, = MC,, gilt. 
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Beweis: 
Die Schnittmenge Q = QH NN® ergibt Zı + Z Bedingungen, die durch die Koeffizienten- 
matrizen C‘, formuliert sind'’. Um die Anzahl der Bedingungen zu reduzieren, kann jede Ma- 
trix C',, vernachlässigt werden, deren Bedingungen bereits durch die Matrix C,, = MC,,, 
zı # 2», sichergestellt sind. Diese Redundanz der Matrix C’,, gilt, da aus C,,w # 0 & 
MC,,w # 0 direkt C- w # 0 folgt. 


Nach diesen Vorbereitungen kann schließlich die Hauptaussage dieses Kapitels formuliert 
werden, die belegt, dass die Menge Q, welche Bedingungen an die Frequenzen w in &pg 
formuliert, eine Menge im Sinne von Proposition 5.1 darstellt. 


Satz 5.2 (PE von o = (app) Vw € Q) 
Seien d(x) und £pr entsprechend Annahme 5.3 und Annahme 5.4 gewählt und Q wie in 


Lemma 5.6 definiert. Falls Q + 0 gilt, so garantiert jeder beliebige Vektor w € Q, dass 
das Signal £pp (t) SR bezüglich &(-) ist und somit o = (xpp) PE ist. 


Beweis: 

Nach Lemma 5.2 lässt sich &(£pr) durch (5.31) ausdrücken. Darauf basierend lassen sich die 
Hilfsmengen QD nach (5.37) und 2°?) nach (5.43) definieren. Da Lemma 5.4, Lemma 5.5 und 
Lemma 5.6 lediglich Äquivalenztransformationen anwenden und die Mengen 0‘), 0% und 
Q nicht verändern, muss im Folgenden nur gezeigt werden, dass die Bedingungen in (5.37) 
und (5.43) hinreichend sind, damit (5.35) gilt. Dann folgt nach Proposition 5.1, dass zpr(t) für 
jeden Vektor w € 2 ein SR-Signal bezüglich &(-) darstellt und somit o = (xpp) PE ist. 


Die zeitliche Ableitung von (5.31) liefert 


Lj, K; 
o, = 5 ay RWI cos (w, pt) — >> Ck ADEA sin(@, pt), (5.48) 
l=1 k=1 


Vh € {1,...,h}. Mit œ € R” folgt aus (5.48) 


Lı Kı 
alo = a, > Qj 1) 4 cos(w; 1t) — 3, Ck 1@K 1 una.) 


l=1 k=1 


a ui (5.49) 
+ Qn (5 AAW h cos(w;.nt) fan 5 Ck,hWk h en) $ 


tal k=1 
h Li, Kr 
= > ar, > a, ALLA cos (w, pt) — > ChA@hh sin(@, zt) 
h=1 I=1 k=1 


101 Hierbei werden die Zeilenvektoren c! in (5.38) ebenfalls als Koeffizientenmatrizen C+ aufgefasst. 
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O. B. d. A. werde nun für die beispielhaft betrachtete (La + 1)-te Spalte 
Pit = Ge, a a (5.50) 


von P* in (5.41) mit Ge = Wi i Vh € {1,...,h— 1}, und Coe) = W, p angenommen, 
dass die Bedingungen I, II und III in (5.43) erfüllt sind. Ausgehend von (5.49) werden die 
trigonometrischen Funktionen, welche die entsprechenden Frequenzen dieser Spalte als Argu- 
mente beinhalten, separiert, und die verbleibenden trigonometrischen Ausdrücke innerhalb 
der Klammern a;(-), Yh € {1,...,h}, zu 7, zusammengefasst. Damit folgt 


ao= a (aiw cos(w; 1t) +e) 


T Qh—1 (a1,n-ıwı,n_1 cos(w) pt) ag En—1) T an (—C1,r@1,p sin(®, nt) T En) 


h-1 h 
= ) Opa nwın cos(w; nt) — AnC1,rW1 h sin(@, nt) + ) ARER 
h=1 h=1 


(5.51) 


Die Bedingungen in 2‘! nach (5.37) stellen sicher, dass die separierten trigonometrischen 
Funktionen in (5.51) innerhalb der Klammern az (-) nicht durch trigonometrische Ausdrücke 
derselben Art eliminiert werden. Dies folgt aus der geforderten Einzigartigkeit der Frequenzen 
in jedem Element ¢; (app) gemäß (5.31) (siehe Definition 5.6). Einzigartigkeit meint hierbei, 
dass Frequenzen, die Argumente gleichartiger trigonometrischer Funktionen sind, ungleich 
zueinander und zu ihrer negierten Frequenz sind. Darüber hinaus garantieren die Bedingungen 
in 0, dass in dem Element ¢;, (apg) Lz Sinus- und Kz Kosinusfunktionen existent sind und 
zwei Sinus- bzw. Kosinusfunktionen sich nicht auf eine einzelne Sinus- bzw. Kosinusfunkti- 
on reduzieren lassen. Hierdurch wird gewährleistet, dass die Kardinalität jeder Menge Wj, 
h € {1,...,h}, (vgl. (5.39)) L; + K; entspricht. Dies ist relevant, damit die Matrix P! der 
Frequenztupel nach Definition 5.7 aufgestellt werden kann und Bedingungen an die Spalten 
von P* abgeleitet werden können. 


Die durch II gekennzeichneten Bedingungen in Q? (5.43) gewährleisten, dass die trigonome- 
trische Funktion, die innerhalb der Klammern œz, (-) in (5.51) separiert wurde, nicht durch tri- 
gonometrische Funktionen in €}, innerhalb der Klammer aj, (:) (Vi, h2 € {1,...,h}, hi Z 
ha) eliminiert wird. Auch dies gilt wegen der Einzigartigkeit der auftretenden Frequenzen. 


Zusammenfassend können aufgrund der Bedingungen in N!) und der Bedingungen II in 
0% die separierten trigonometrischen Ausdrücke in (5.51), unabhängig von den konkreten 
Werten von aj, a, 7, und cp 7,, nicht durch die Funktionen in €}, Vh € {1,...,h}, eliminiert 
werden. Daher genügt es, zu zeigen, dass die Bedingungen, die durch I und II in Q(? (5.43) 
gekennzeichnet sind, unter der Annahme ez, = 0, Vh € {1,..., h}, zu einem Signal aTo nach 
(5.35) führen. Falls ez, # 0 gilt, können die in (5.51) separierten trigonometrischen Funktionen 
nicht ausgelöscht werden, es können höchstens zusätzliche Terme hinzukommen. 


Im Folgenden gelte e; = 0, Yh € {1,..., h}. Aufgrund der Bedingungen I in 0?) verschwin- 
den die Frequenzen der trigonometrischen Ausdrücke, die in (5.51) separiert wurden, nicht und 
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es folgt wı z #0, a, wi R 40, Yh € {1,...,h — 1}, sowie ©; , # 0 und cı n@ı p # 0. Falls 
&;=0Vhe{1,...,h} gilt, sind diese Bedingungen notwendig für (5.35). Dies lässt sich wie 
folgt einsehen. Wäre eine Frequenz null, so existierte ein a # 0, sodass ato = 0 folgt. Würde 
beispielsweise das h-te Element von ø die verschwindende Frequenz beinhalten, so wäre ein 
solches a gegeben, indem alle Einträge von a außer dem h-ten zu null gesetzt würden. Mit 
den durch II gekennzeichneten Bedingungen in 9?) bilden die separierten trigonometrischen 
Ausdrücke @1,1W) ı cos(w, 1t), 665 (1 h—-1Wy p-1 cos(wı.n_ıt); C1,n®1,n sin (©; nt) in (5.51) 
ein linear unabhängiges Funktionensystem. Somit erfüllt ihre Linearkombination (5.35), falls 
mindestens einer der Koeffizienten ungleich null ist, also œ Æ O gilt. Im Spezialfall c; = 0 
Vh € {1,...,h} sind die Bedingungen II in 0? wiederum ebenfalls notwendig zur Erfüllung 


von (5.35). Um dies einzusehen, sei 0.B.d.A. w ı = +w; „_.ı. Dann folgt ato = 0 für 
ad 1 
re [Fats 0... 0 ph o]. 


Somit sind für den Fall e; = 0 die Bedingungen I und II in 0? notwendig und hinreichend 
dafür, dass (5.35) für jedes beliebige a # O gilt. Wie zuvor gezeigt, sind die zusätzlichen 
Bedingungen im Fall e # 0 hinreichend dafür, dass sich trigonometrische Funktionen nicht 
aufheben. Da die beispielhaft gewählte Frequenzkombination, d.h. die Spalte aus Pf im hier 
erfolgten Beweis, austauschbar ist und mindestens eine solche Spalte existiert, führt jeder 
Frequenzvektor w € Q = Q 4.0?) zu einem Signal ato, für das (5.35) gilt. Schlussendlich 
folgt aus Proposition 5.1, dass app SR bezüglich der Transformation $C) ist und somit ø die 
PE-Eigenschaft erfüllt. 


Satz 5.2 liefert ein hinreichendes Kriterium für die Wahl der Frequenzen w in £pp, sodass das 
Signal £pg SR bezüglich &(-) ist. Das folgende Lemma adressiert die Annahme in Satz 5.2, 
dass Q eine nichtleere Menge ist. 


Lemma 5.7 


Falls der sukzessive Vereinfachungsprozess von ? nach Algorithmus 5.2 in der letzten 


Iteration (kiy > Np — 1) nicht zur allgemeinen Lösung w; = wj, Vj € {1,..., m}, führt, 
ergibt sich Q wie in (5.47) und es gilt Q 4 0). 


Beweis: 

Tritt wj = wj, Vj € {1,..., m}, in der letzten Iteration ki > Np — 1 von 9% in Algorith- 
mus 5.2 nicht auf, so folgt nach Lemma 5.5 die nichtleere Menge 9?) durch (5.46). Zudem ist 
nach Lemma 5.6 Q durch (5.47) gegeben. Unter der Annahme, jede Zeile c! der Koeffizienten- 
matrizen C’, erfülle die Ungleichung clw # 0, lässt sich eine Teilmenge Qy von Q definieren, 
wobei die durch Qy beschriebenen Bedingungen einschränkender als die Bedingungen in Q 


sind, d.h. 


Z 
m= fuiAcwzo}co= fe: Acuzol. (5.52) 


z=1 


152 5 Konvergenzbedingungen zeitkontinuierlicher adaptiver Optimalregler 


Da clw = 0 eine (m — 1)-dimensionale Hyperebene im R” beschreibt, ist deren Lebesgue- 
Maß null und die Hyperebene definiert eine Lebesguesche Nullmenge [Coh13, S. 146]. Zudem 
führt jede abzählbare Vereinigung Lebesguescher Nullmengen wieder auf eine Lebesguesche 
Nullmenge [Coh13, Proposition 1.2.4]. Daraus folgt, dass Qy den gesamten Raum R” mit 
Ausnahme einer Lebesgueschen Nullmenge enthält und somit Qy 4 Ý sowie Q # B gilt. 


Bemerkung 5.3 


Sollte in der letzten Iteration von Q?) nach Algorithmus 5.2 w; = wj, Yj € {ih ooo giant. 
resultieren, d. h. sollten für die Komplementärmenge Q keinerlei Einschränkungen 


an die Wahl der Frequenzen gelten, so ist es ratsam, zusätzliche Frequenzvariablen in 
den Elementen der Anregungstrajektorie &pz einzuführen, bis eine nichtleere Menge Q 
resultiert. 


Für den Spezialfall Np = 1, d.h., falls PË nach Definition 5.7 nur eine Spalte besitzt, sind 
die Frequenzbedingungen aus Satz 5.2 notwendig und hinreichend. Zudem bleibt die PE- 


Eigenschaft von o = (pg) bei einer Skalierung von px erhalten. Diese Aussagen sind in 
Lemma 5.8 bzw. Lemma 5.9 formalisiert. 


Lemma 5.8 


Seien xpp und (2x) wie in Satz 5.2 gewählt und Q wie in Lemma 5.6 gegeben. Falls 


Np = 1 gilt, isto = (apg) genau dann PE, wenn w E Q. 


Beweis: 
Für Np = 1 ergibt sich N" = R”. Da hierbei zudem die durch III in 0? (5.43) gekennzeich- 
neten Bedingungen entfallen, spielen lediglich die Teilbedingungen I und I von 2 bei der 
Definition von Q eine Rolle. Außerdem impliziert Np = 1 in (5.51) e} = 0, Vh € {1,...,h}. 
Für diesen Fall sind gemäß dem Beweis von Satz 5.2 die Bedingungen I und II in 0 notwen- 
dig und hinreichend dafür, dass (5.35), aber insbesondere auch aTo £ 0, für jedes beliebige 
a # 0 gilt. Mit Lemma 5.3 folgt schließlich die gesuchte Aussage. 


Lemma 5.9 (Skalierung von pz) 


Seien £pg und Q entsprechend Satz 5.2 gegeben. Dann ist 


fiir jeden Vektor w € Q und vj € Ryo, Vj € {1,...,n}, ein SR-Signal bezüglich &(-). 
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Beweis: 
Siehe Anhang C.2. 


Während zu Beginn von Abschnitt 5.4 der Spielerindex i zunächst vernachlässigt wurde, 
sollen nun wieder alle N Spieler berücksichtigt werden. Dabei können sich deren Basisfunk- 
tionsvektoren @;(a), i € N, im Allgemeinen unterscheiden. Für ein gegebenes xpg nach 
Annahme 5.4 wird für jeden der N Basisfunktionsvektoren &,(z) nach Annahme 5.3 eine 
Menge an Frequenzbedingungen nach Satz 5.2 berechnet. Daraus ergeben sich N Mengen 9).. 
Wird deren Schnittmenge analog zu Lemma 5.6 gebildet, folgt die Menge 


2 = (2%. (5.54) 


Jeder Vektor w € Q stellt dann sicher, dass apg (t) SR bezüglich ,(-), Vi € N, ist. 


Satz 5.2 stellt das Hauptergebnis dieses Kapitels dar und liefert eine neuartige und generell 
anwendbare Aussage beziiglich PE-Signalen, die aus nichtlinearen, polynomiellen Transfor- 
mationen resultieren. Die durch die Menge Q definierten Frequenzbedingungen können für 
ADP-Systeme angewandt werden, welche die Erfüllung der PE-Bedingung nach Definition 5.4 
erfordern. Insbesondere liefert Satz 5.2 eine Lösung für Problem 5.1, da xpg(t) mit beliebigem 
w E€ Q ein x(t) im Sinne von Problem 5.1 darstellt. Da aus praktischer Sicht die Uberprii- 
fung, ob die PE-Eigenschaft bei vorliegenden Signalen tatsächlich erfüllt ist, bislang nur 
unzureichend geklärt ist, beschäftigt sich der nächste Abschnitt mit dieser Fragestellung. 


5.5 Signal zur Überprüfung der Erfüllung der 
PE-Eigenschaft 


Im Folgenden werden zwei Eigenwertsignale vorgestellt, mit deren Hilfe eine Antwort auf die 
Frage, ob ein vorliegendes Signal die PE-Eigenschaft erfüllt, gegeben werden kann. 


Lemma 5.10 (Eigenwertsignal Amin,ı (t) zur Überprüfung der PE-Eigenschaft) 


Das Signal o (t) : R>o > R” ist genau dann PE Yt > to, wenn Konstanten a > 0 und 
T > 0 existieren, sodass Vt > to 


t+T 
Aa O = Aa Ea O) = A (/ o(r)o!(r) ar) >a>0 (5.55) 


gilt. Hierbei bezeichnet Ayıin(:) den kleinsten Eigenwert einer Matrix”. 


102 Da es sich bei E; (t) um eine symmetrische Matrix handelt, sind deren Eigenwerte alle reell und der kleinste 
Eigenwert ist eindeutig definiert. 
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Beweis: 
Nach Definition 5.4 ist ø (t) genau dann PE, wenn 


T 
5, (t) = T o(r)o'(r)dr=al (5.56) 


gilt. Da Æ; (t) nach (5.56) Vt symmetrisch ist, existiert eine reguläre Matrix M (t), sodass 
=, (t) = M(t)G(t)M (t) (5.57) 


gilt, wobei G(t) eine Diagonalmatrix mit den Eigenwerten von 5; (t) ist [BSMM13, S. 325]. 
Die PE-Eigenschaft von ø (t) ist folglich äquivalent zu 


=, (t) = M(t)G(t)M'(t) > aI (5.58) 
und aufgrund der Regularität von M (t) zu 


G(t) = al. (5.59) 


Sei o. B. d. A. das (j, j)-te Element von G(t) gerade Amin (Eı(t)) und e;(t) der j-te Einheits- 
vektor. Dann folgt 


Xmin,1(t) = Amin(E1(t)) = e7 (t)G(t)e;(t) 2 a. (5.60) 


Lemma 5.11 (Eigenwertsignal Amin,2(t) zur Überprüfung der PE-Eigenschaft) 
Wenn Yt > to das Signal o (t) : R>o — R” PE ist, so steigt Yt > to das Eigenwertsignal 


Amin,2(t) == Amin (Bo(t)) = Amin GE a(t)o' (T) ar) (5.61) 


to 


monoton und es gilt \min,o(kT + to) > ka, k € Nso,a>0,T > 0. 


Beweis: 
Sei ø (t) PE. Unter Verwendung von Definition 5.4 folgt daher 


kl pG+1)T+to 
S2(kT + to) = f o(r)o'(r)dr > kal. 
j=0 jT +to 
{CEE 
ral 


(5.62) 


Analog zu (5.57)-(5.59) resultiert aus (5.62) 


Amin,2(kT + to) = Amin (So (kT + to)) > ka. (5.63) 
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Zudem steigt (5.61) monoton, da fir kT + to < t < (k + 1)T + to 


T+to (5.64) 


gilt. 


Lemma 5.10 liefert mit dem Eigenwertsignal Amin,ı (t) und (5.55) ein notwendiges und hin- 
reichendes Kriterium für die Erfüllung der PE-Eigenschaft. Für dessen Berechnung müsste 
jedoch ein festes T im Voraus bestimmt werden, was in der Simulation nicht praktikabel ist. 
Daher wird zunächst Amin,2(t) betrachtet, um einen möglichen Kandidaten für T zu ermitteln. 
Vorteilhaft ist, dass das Signal Amin,2(t) direkt zur Laufzeit berechnet werden kann. Es stellt 
nach Lemma 5.11 jedoch lediglich ein notwendiges Kriterium zur Erfüllung der PE-Eigenschaft 
dar. Nach Wahl eines numerischen Schwellwerts a; wird der Zeitpunkt T, bestimmt, zu dem 
erstmalig Amin? > œ% gilt. Tų wird dann als Kandidat zur Überprüfung der Ungleichung 
(5.55) mit T = T, und a = a, verwendet. Ist (5.55) erfüllt, so ist ø (t) nach Lemma 5.10 PE. 
Sollte hingegen Amin,ı (t) den Schwellwert a; unterschreiten, so wird T, iterativ erhöht. Bleibt 
auch hierbei Amin,ı (t) unterhalb von a, so wurde die Einhaltung der PE-Eigenschaft für ø (t) 
nicht nachgewiesen. Sollte das Eigenwertsignal Amin,2(t) sättigendes Verhalten aufweisen, so 
beweist Lemma 5.11, dass ø (t) nicht PE ist. 
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Die bisher präsentierten Hauptbeiträge des vorliegenden Kapitels formulieren Bedingungen 
an den Systemzustand x, um Konvergenz des Policy-Evaluation-Schrittes der Policy Iteration 
nach Algorithmus 5.1 zu gewährleisten. Während Satz 5.2 zeigt, dass hierbei eine genaue Ana- 
lyse möglich ist, stellt die Frage nach geeigneten Stellgrößen u;, i € M, um diese Bedingungen 
an den Systemzustand x zu garantieren, insbesondere bei unbekannter Systemdynamik ein 
grundlegendes Problem dar. Auch für die Identifikation einer a priori unbekannten Systemdy- 
namik wäre wiederum eine geeignete Anregung erforderlich (vgl. Abschnitt 2.3), sodass ein 
komplett analytischer Anregungssignalentwurf der fehlenden Systemkenntnis grundsätzlich 
widerspricht. Um jedoch zu Analysezwecken die Umsetzung von Simulationsbeispielen in 
Abschnitt 5.7 zu ermöglichen, wird die folgende Annahme verwendet’. 


Annahme 5.5 


Für den Anregungssignalentwurf seien f(x), g(x), @;(a), Ri; und wl, Vi € N, be- 
kannt. 


[2] 
j> 
j E€ N, j £ i, besitzen, wird allein für den Entwurf von uex angenommen, dass wl), Vi € N, bekannt sind. 


103 Wenngleich die Spieler i € N entsprechend Definition 5.1 weiterhin keine Kenntnis der Regelgesetze fx 
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Im Folgenden wird ein additives Anregungssignal tex gesucht, sodass die Critic-Gewichtsfehler 
wl = wir! _ wir, Vi € N, im Policy-Evaluation-Schritt (vgl. Algorithmus 5.1) ex- 
ponentiell konvergieren. Hierzu ist nach Lemma 5.1 die Erfüllung der PE-Eigenschaft von 


ai, Vi € N, notwendig und hinreichend. Um eine Eingriffsmöglichkeit zur Systemanre- 
gung zu bieten, wird ein Anregungssignal u., verwendet, das die im Folgenden formulierte 
Problemstellung lösen soll. 


Problem 5.2 
Sei Annahme 5.5 erfüllt. Gesucht ist ein Anregungssignal 


= 
Uex = un U2 Br un] : (5.65) 


sodass o;, Vi € N, PE ist. Dabei sind u.x ; Anregungssignale, die nach Abbildung 5.1 


auf die den N Spielern zur Verfügung stehenden Eingänge addiert werden, d. h. es gilt 


u, = Al (a) + Uex,i- 


Wie in Abbildung 5.1 ersichtlich ist, wirkt jeder Spieler i € N durch das jeweilige Regelgesetz 


Ê; (a) in der l-ten Iteration der Policy Iteration nach Algorithmus 5.1 auf das System ein. 
Basierend auf dem durch (5.15) gegebenen Gradientenabstieg werden die Critic-Gewichte 


wl, Vi € N, bis zur Konvergenz des Policy-Evaluation-Schrittes adaptiert. Anschließend 


© = f(e) + g(a)u 
(0) = £o 


Anregungs- 
signal 


Abbildung 5.1: Regelkreisstruktur des eingangsaffinen Nicht-Nullsummen-Differenzialspiels mit Anregungssignal 
Uex (rot). Das Signal ø; (blau) wird von jedem Spieler individuell berechnet und ist nicht als 
Systemgröße messbar, hier der Vollständigkeit halber jedoch dargestellt (Abbildung nach [Kar19]). 
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werden die Regelgesetze pt (a), Vi € N, gemäß (5.24) angepasst. Die Anregung des 


Systems erfolgt hierbei nicht über zusätzliche Anregungssignale der einzelnen Spieler, sondern 
soll durch das externe Anregungssignal u., sichergestellt werden. 


Die nachfolgende Bemerkung skizziert, weshalb häufig verwendetes weißes Rauschen als An- 
regungssignal tex (vgl. Abschnitt 2.3) aus theoretischer Sicht zwar plausibel, jedoch praktisch 
ungeeignet erscheint. 


Bemerkung 5.4 (Weißes Rauschen als Anregungssignal uex) 


Nach Proposition 5.1isto = (app) PE Vw € Q, wenn es gelingt, eine Menge N zu 
bestimmen, für die Vw € Q und Va #0 folgt, dass ato; F 0 gilt. Wird das Anre- 
gungssignal Uex in (5.65) durch weißes Rauschen realisiert, so erscheint es für vollständig 
steuerbare Systeme und sinnvoll gestellte Probleme, d. h. unter der Annahme, dass ei- 


ne ausreichende Anregung grundsätzlich möglich ist, unwahrscheinlich, dass sich alle 
Frequenzen durch die Transformation ®,(&pz) gegenseitig aufheben und ato; = 0 


resultiert. 

Jedoch sei zu erwähnen, dass eine Anregung technischer Systeme mit weißem Rauschen 
häufig nicht erwünscht ist. So sind beispielsweise hohe mechanische Belastungen zu 
erwarten, zudem dämpfen Systeme mit Tiefpassverhalten einen wesentlichen Teil der 
Anregungsenergie. Die Verwendung weifsen Rauschens als Anregungssignal bietet also 
keine Freiheitsgrade, zusätzliche problem- oder systemspezifische Anforderungen zu 
berücksichtigen. 


Im Folgenden werden die theoretischen Ergebnisse aus Abschnitt 5.4 und insbesondere Satz 5.2 
verwendet, um ein Anregungssignal u., zu entwerfen und somit Simulationen zu ermöglichen. 
Der prinzipielle Ablauf zum Entwurf von ue, ist in Abbildung 5.2 gezeigt. In einem ersten 
Schritt wird hierbei xpg(¢) in Übereinstimmung mit Annahme 5.4 gewählt. Die konkreten 
Frequenzen w sind zu diesem Zeitpunkt noch frei. Mithilfe von Satz 5.2 werden dann die Signale 
d;(&pr), Vi € N, analysiert und die Mengen Q; berechnet, sodass für jedes w € Q; folgt, dass 
pz SR bezüglich @; (+) ist. Anschließend können verbliebene Freiheitsgrade gewählt werden. 
Einerseits beinhaltet dies die konkrete Wahl der Frequenzen in apg zu einem beliebigen 
wW eNI= N; Q;, andererseits kann durch Wahl von v € R”, vj # 0, eine Skalierung nach 
Lemma 5.9 erfolgen. Hierdurch können problemspezifische Anforderungen, wie beispielsweise 
die Tiefpasscharakteristik eines Systems, berücksichtigt werden. Schließlich wird im letzten 
Schritt ein Anregungssignal tex basierend auf 


Tpr = diag(v) xpe|.,_.,, (5.66) 


berechnet. Dieser letzte Schritt wird im Folgenden für das Beispiel eines exakt zustandslinea- 
risierbaren Systems anhand eines flachheitsbasierten Vorsteuerungsansatzes betrachtet. 


In einem ersten Schritt soll untersucht werden, ob alle p = Ex pi Systemeingänge zur 
Anregung benötigt werden. Zu diesem Zweck wird g(x) in (5.1) analysiert, um Spalten von 
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(wpe nach Annahme 5.4, Frequenzen w frei) 


Y 


Analyse von d; (xp), Vi € N, zur Berechnung von Q; (Satz 5.2) 


Trg, Qi 


Y 


Wahl der Freiheitsgrade: 
1)w EN = N Q 


2) v E€ R”, vj #0 


TpE = diag(v) LPE 


w=we. 
Y 
Berechnung von u.x basierend auf pg 


(Anre Bean gnal Uex) 


Abbildung 5.2: Ablaufdiagramm zum Design eines Anregungssignals tex. 


g(a) zu identifizieren, die durch einen funktionalen Zusammenhang mittels anderer Spalten 
ausgedrückt werden können. Eine Umsortierung der Spalten von g(a) führt dann zu 


g(x) = [9:(®) gul®)] , (5.67) 


9: R” > R°*?!, gy : R” — R”*Pı und der funktionalen Beziehung y(x), sodass Va € X 
der Zusammenhang 


Inlz) = Hle)yl®) (5.68) 


besteht und g;(a) maximalen Spaltenrang aufweist, d.h. Rang (g;(a)) = py gilt. Werden die 
Systemeingänge in analoger Weise wie die Spalten von g(x) umsortiert, ergibt sich 


a= ha (5.69) 


mit u € RP, u; € R”! und un € RP". Da aufgrund von (5.68) eine Anregung des Systems über 
die zu Un zusammengefassten Eingänge keinen Mehrwert liefert, wird das Anregungssignal 
Uex, der entsprechenden Eingänge zu null gesetzt. Für die Systemanregung werden lediglich 
die Eingänge ur verwendet, sodass u., ı entworfen werden muss und sich das Anregungs- 


i Rae : ä z T T 
signal tex schließlich aus der Rücksortierung von tex = lu} I Til = [uki 01x | 
ergibt! 


104 Dieses Vorgehen, um die Anzahl der Eingänge zur Systemanregung zu reduzieren, ist generell anwendbar und 
lässt sich somit beispielsweise auch bei klassischer Anregung durch weißes Rauschen nutzen. 
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Das globale Anregungssignal we, (bzw. Uex,1) kann zu Simulationszwecken mithilfe eines 
inversionsbasierten Vorsteuerungsansatzes (siehe beispielsweise [DCP96], [Hir79], [Dev02]) 
entworfen werden. Im Folgenden wird für das Beispiel eines (global) exakt zustandslinearisier- 
baren Systems (vgl. [Ada18, Definition 29]), das folglich auch differenziell flach!” ist [Ada18, 
Satz 67], eine flachheitsbasierte Vorsteuerung vorgestellt und analysiert. Dazu werde zunächst 
allgemein 


t = f(x) + (x) ur (5.70) 
mit 
f(x) = f(x) + g(x) A (æ) (5.71) 


betrachtet. Somit entspricht f, der Dynamik des durch me (a) geschlossenen Regelkreises 
des Systems (5.1). Dieses System lasst sich auf Byrnes-Isidori-Normalform (BINF) [Ada18, 
S. 354] ohne interne Dynamik transformieren, falls eine (ggf. fiktive) Ausgangsfunktion 
h(a) : R” — RP! mit vollem totalen relativen Grad!” [Ada18, Definition 28] (6 = > ö;=n) 
existiert [Zim84]. Nach [Isi89, S. 245] ist das System in BINF dann durch pı Subsysteme der 
Form 


2B, 1,j = 282,55 


28,6j;-1,9 = 7B,6;,5> (5.72) 
‘ 5; 5j-1p L. Lh 
in, = LY hy) + [Lon EF, j(x) un hy(E)| w, 
< U mmm 
Bj (æ) d} (x) 


j € {1,..., pr}, gegeben. Dabei bezeichnet h; (a) das j-te Element von h(a), L die Lie- 
Ableitung", ô; den relativen Grad von (5.70) bezüglich h;(a) und gı (Œ), k € {1,..., pr}, 
die k-te Spalte von g,(x). Der Diffeomorphismus 

zg = t(x) 


= [tıl®) - tanla) ta) = tele) timla) = tappa, 


ðu 


105 Ein System & = faypn(®, U) mit Rang ( ) = dim(u) heißt flach (vgl. [FLMR95], [Ada18, Ka- 


pitel 3.2]), wenn ein (realer oder fiktiver) flacher Ausgang y = hr (x, U,Ü,..., uxı)), x ENX 
endlich, dim(y) = dim(u), existiert, sodass 3x2 € N , x2 endlich, mite = Tı (y,%,...,y(X2)) und 
u=Ta (y, Bovis yr24)) [Ada18, Definition 27], [Lév09, Definition 6.1]. 

Der totale relative Grad ô eines Systems ist auch als Differenzordnung eines Systems bekannt. Eine solche 
Ausgangsfunktion lasst sich bei einfachen Systemen haufig durch Betrachtung der Systemmatrizen ermitteln, 
ansonsten kann im Fall der betrachteten eingangsaffinen Systeme die in [Zim84] beschriebene Methode verwendet 
werden. 


„07 Li h(a) = Ls Ly hæ) bezeichnet die j-te Lie-Ableitung von h(a) bezüglich f (a). Dabei gilt per Definition 


Lgh(x) = Z2 F(a), 


106 
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der den Systemzustand & auf BINF transformiert, ergibt sich zu 


23,1, = t1,(®) = hj (x), 


2B,2,j = to; (a) = Ly,hj(®), 


(5.74) 
= _ 795-1 
zsa = ta, jŒ) = LY h(a). 
Werden nun die Elemente 2g,1,j, Vj € {1,..., pr}, verwendet, um 
Ye = he(zg) = [2,1,1 ZB12 «++ eel (5.75) 
als Kandidat für einen flachen Ausgang zu wählen, so folgt 
: d1- 3 ôp—1)] T 
ZB = Ew 2B,1,l + :: eh s+) ZBlyp ZBlp te a 2 
Be (5.76) 
a P (usie äi ) 
mit dmax = max{ô1, . . . , Ôp, }. Aus (5.72) folgt 
3 ô 
2B,ô1,1 k 
u = D™ (æ) | —B(x) + = D (æ) | -B(e)+ | : 
: ô 5.77 
2B, 6p, Pr ve ( ) 


. Snax 
=o (ystof D: 


wobei die Vektoren dj (æ) zur sogenannten Entkopplungsmatrix D(a) [Ada18, S. 373] zusam- 
mengefasst werden, sich der Vektor G(x) aus 6; (a) zusammensetzt und im letzten Schritt 
x =t!(W,(-)) genutzt wird. Falls nun det(D(æ)) # 0 gilt, so existiert W, in (5.77) und 
der gewählte Kandidat h¢(zg) stellt tatsächlich einen flachen Ausgang dar, da Y, und P2 
existieren. Da Y3 nach [FLMR95] die Systemdynamik invertiert, kann direkt eine Vorsteue- 
rung entworfen werden. Hierzu wird für die hier betrachtete Problemstellung die gewählte 
Anregungstrajektorie Zpp mit dem Diffeomorphismus t(-) in BINF überführt und mithilfe von 
Yılz,, = hr ( zelan) = hr(t(&pr)) das Anregungssignal wx 1 aus (5.77) berechnet. Schließ- 
lich resultiert das Anregungssignal tex aus der Rücksortierung von tex = [user Un i 
wobei tex, = O gilt. 


Für die nachfolgenden Analysen bezeichne 


E en 


den idealen Systemzustand, der mit exakter Systeminversion und ohne Anfangsfehler des 


z — . Ömax—1 
c=t (x, (aliia l 


Zustands, d.h. ohne Einschwingvorgänge, resultieren würde. Die Definition der Flachheit 
[Ada18, Definition 27] stellt insbesondere durch dim(y;) = dim(u;) sicher, dass die Ausgänge 
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Yri iE {1,..., pr}, differenziell unabhängig sind. Dies ermöglicht, dass die Wahl der (fiktiven) 
Ausgangsgröße %; beliebig ist und durch die Vorsteuerung auch erzielt werden kann (vgl. 
[Ada18, S. 210 £.]). Falls jedoch nicht der gesamte Zustandsvektor x den flachen Ausgang yr 
darstellt, so können im Allgemeinen die Elemente des Zustandsvektors nicht unabhängig 
voneinander vorgegeben werden, sondern können differenzielle Abhängigkeiten aufweisen. 
In diesem Fall kann & = xpr im Allgemeinen nicht erreicht werden. 


Im Folgenden wird daher formal untersucht, unter welchen Annahmen trotz einer Abweichung 
des idealen Zustands & von gpg, beispielsweise durch differenzielle Abhängigkeiten, sowie 
möglichen Abweichungen, die der tatsächliche Systemzustand x von & haben kann’, die 
Erfüllung der PE-Eigenschaft von o;(t) Vi € N gewährleistet werden kann. Hierzu gelte die 
folgende Annahme. 


Annahme 5.6 


Für & sei 


ee a 
č: = o: (ž(t)) = &(@(t)) = M, 


(5.79) 
mit M; € Rix? h; < hfreqs und Vireg(t) € Rea, wobei Vfreq(t) ein Vektor ist, 
dessen Elemente Sinus- und Kosinusfunktionen unterschiedlicher Frequenzen (d. h. unter- 
schiedlich für identische trigonometrische Funktionen) darstellen. 


Der tatsächliche Systemzustand «x, der unter Verwendung der Regelgesetze 


gi (CE) ee , pl (x) und des Anregungssignals u.x resultiert, führe zu 


oilt) = 6;(t) +e1,lt) + €2,(t), VEN, (5.80) 


mit stetigen, beschränkten Signalen €1,;(t),€2;(t): R>o > R™. Zudem gelte 
leı.()|| < Eo, Yt, und e2, (t) > O fürt > ov. 


Bemerkung 5.5 


Aufgrund von (5.79) muss für die nachfolgenden Aussagen somit nicht & = &pp gelten, 
sondern differenzielle Abhängigkeiten können berücksichtigt werden. Ob (5.79) gilt, lässt 
sich anhand von Y, dem Diffeomorphismus t(-) zur Transformation auf BINF und dem 
flachen Ausgang yp a priori überprüfen. Zudem entsprechen die in Vfreq auftretenden 
Frequenzen Linearkombinationen der Einträge von w.. Weiterhin berücksichtigt (5.80) 
durch eı i(t) Modellungenauigkeiten, beispielsweise der Regelgesetze oder der Systemdy- 
namik, und durch ea ;(t) transiente Vorgänge. Beides kann zu Abweichungen zwischen 
x und & führen. 


Das nachfolgende Lemma liefert eine theoretische Aussage hinsichtlich der Erfüllung der 
PE-Bedingung für das aus dem tatsächlichen Zustand a(t) resultierende Signal a; (x(t)). 


108 Insbesondere transiente Vorgänge während des Einschwingvorgangs können zu æ Æ & führen. 


162 5 Konvergenzbedingungen zeitkontinuierlicher adaptiver Optimalregler 


Lemma 5.12 


Sei Epp(t) = diag(v) zpr(t)|,_,. wie in Lemma 5.9 mit entsprechender Wahl von 


we € Q und v gegeben. Unter Annahme 5.6 ist o,;(t) = o;(x(t)) Vi E€ N PE, falls Esi 
hinreichend klein ist und Rang( M) = h; gilt. 


Beweis: 

Der Beweis erfolgt in zwei Schritten. Im ersten Schritt wird gezeigt, dass o;(t) PE ist, falls 
6; (t) die PE-Eigenschaft erfüllt. Im zweiten Schritt wird bewiesen, dass &;(t) PE ist. Mit (5.80) 
folgt aus (5.19) 


A T) + €1,:(T) + €2,:(T))" e| dr 


se edn) Fear- a f |(ei1ilT Weir” |(€2,i(7))" e| dr 
T Ji 


> ALi — Eoi — IMT). (5.81) 


Die letzte Ungleichheit in (5.81) ergibt sich, wenn č; PE ist und aufgrund der Beschränktheit 
von €1,; sowie dem Konvergenzverhalten von eo, ;. Letzteres stellt 


t+T 
/ l(ea,i(r))"eldr < M.(T) (5.82) 


sicher, wobei M.(T) eine von T abhängige obere Schranke darstellt. Da M.(T) aufgrund 
von €9 ;(t) + 0 (t > oo) mit steigendem T in die Sättigung übergeht, existiert T, sodass 
ari > Eo,i + +M.(T), VT > T, gilt, wenn €,,; hinreichend klein ist. Nach (5.19) folgt, dass 
g; ein PE-Signal ist, wenn č; PE ist. Dass 6, ein PE-Signal ist, folgt schlussendlich aus (5.79) 
unter Anwendung von [NA05, Lemma 6.1], da Ufeq(t) PE ist und M; maximalen Zeilenrang 


besitzt. Die PE-Eigenschaft von Vfreq(t) ist dabei ein direktes Resultat aus Lemma 5.3. 


In Abschnitt 5.4 wurden zentrale theoretische Zusammenhänge zwischen dem Systemzustand 
x und der Erfüllung der PE-Eigenschaft von ø; analysiert und somit Problem 5.1 gelöst. Darauf 
aufbauend wurde in Abschnitt 5.6, ausgehend von Problem 5.2, ein mögliches Entwurfsver- 
fahren für Anregungssignale ADP-basierter Differenzialspiele vorgestellt, welches für die 
Umsetzung der nachfolgenden Simulationsbeispiele genutzt wird. 


5.7 Simulationsbeispiel zur Anregung von ADP-basierten 
Differenzialspielen 


In diesem Abschnitt wird zunächst ein Beispiel eines eingangsaffinen Nicht-Nullsummen- 
Differenzialspiels vorgestellt. Anschließend werden gemäß dem in Abbildung 5.2 gezeigten 
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Ablauf Anregungssignale konstruiert. Diese Anregungssignale sowie ein Vergleichssignal, 
das weißes Rauschen approximiert, werden anschließend zur Anregung eines Beispielsystems 
verwendet. Die Adaption der Critic-Gewichte wird hierfür in der Simulation betrachtet. 


5.7.1 Beispielproblem 


Um die Konvergenz der Critic-Gewichte anhand von Simulationen zu untersuchen, wird 
zunächst ein beispielhaftes Differenzialspiel definiert. Damit die durch w/, Vi € N, beschrie- 
bene Lösung zu Vergleichszwecken bekannt ist, wird ein Beispielsystem mit N = 2 Spielern, 
das mithilfe des Converse-HJB-Ansatzes [NP96] konstruiert wird, verwendet!”. Nach Wahl 
der optimalen Value Functions zu 

1 1 1 


Vi (a) := z” + x2, Ve (x) = rent + z”? (5.83) 


und der Gütefunktionale der beiden Spieler zu 


Jı(&0, 1, 2) = 2(21 +23) +2 (m (æ))? +2 (ya(a))” dr, 
0 00 


7 =q1 (2) =p] Rup, = 43 Rızka (5.84) 
Alam) = [f+ 23+ (nla)? + yola)? dr 
0 mu — 
=:q2 (x) =u] Ran, =m} R2242 
(vgl. (5.2)) liefert der Converse-HJB-Ansatz das nichtlineare, eingangsaffine System 
ee — 2271 + T2 
= | ny — dou + a ((oos(2r1) +2)? + (sin(4a) +292) 
= f (æ) 
(5.85) 
+ ur K u 
cos(2x1)+2| +  [sin(42?) +2| 7? 
0 eS 
=:g,(®) =:9,(®) 


110 


(vgl. (5.1)) als mögliche Lösung”. Der initiale Systemzustand wird zu £o = [0 0] E gesetzt!!!. 


Die Basisfunktionen 


p(z) = p(x) = |z} rire le (5.86) 


109 Ähnliche Testsysteme werden auch in der Literatur konstruiert, siehe beispielsweise [VL11], [LLW14]. 

110 Das sich im Zuge des Converse-HJB-Ansatzes ergebende Gleichungssystem ist unterbestimmt, da den beiden 
skalaren HJB-Gleichungen der Spieler mit den Funktionen f (æ), gı (x) und g (æ) (jeweils € R?) insgesamt 
sechs unbekannte Größen gegenüberstehen. 

Eine initiale Auslenkung des Systemzustands würde eine zusätzliche Anregung des Systems bedeuten und wird 
daher zugunsten der Vergleichbarkeit der nachfolgend untersuchten Anregungssignale vermieden. Generell 
muss jedoch nicht æo = 0 gelten. 


111 
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die Annahme 5.3 erfüllen, können die optimalen Value Functions (5.83) parametrieren und die 
als unbekannt angenommenen gesuchten Nash-Gewichte ergeben sich zu 


1 
1 

wi = |0], w3 = (5.87) 
1 


NIF oele 


5.7.2 Konstruktion geeigneter Anregungssignale 


Um, wie in Abschnitt 5.6 beschrieben und in Abbildung 5.2 veranschaulicht, ein Anregungssi- 
gnal uex zur Lösung von Problem 5.2 zu konstruieren, wird zunächst £pg nach Annahme 5.4 
gewählt. Anschließend wird die Menge 2 an Frequenzbedingungen nach Satz 5.2 berechnet. 
Nach Wahl der verbliebenen Freiheitsgrade w. € Q und v € R”, vj Æ 0, wird schließlich wex 
mithilfe eines flachheitsbasierten Vorsteuerungsentwurfs berechnet. 


5.7.2.1 Wahl geeigneter Anregungstrajektorien £pr 
In Übereinstimmung mit Annahme 5.4 wird 


(5.88) 


sin(wit) + S] 
sin(wgt) 


am = | 


gewählt, weshalb im Folgenden Bedingungen an w = [wi w2 ws] T untersucht werden. 
Die sich ergebenden Frequenzbedingungen Q nach Satz 5.2 sind, wie in Lemma 5.6 gezeigt, 
durch Z Matrizen C, definiert und durch 


4 
a-fo; Acerol, Z €N», (5.89) 
z=1 


gegeben. Die Matrizen C, sind in Tabelle 5.1 aufgelistet!!?. Anschaulich betrachtet ist jeder 
Frequenzvektor w geeignet, der keine der Z = 21 Gleichungen C,w = 0, z =1,...,Z, 
erfüllt. Durch die in Tabelle 5.1 gegebenen Matrizen C’, werden 21 Ebenen C,w = 0 im 
R? beschrieben, die alle durch den Koordinatenursprung verlaufen und auf denen der Fre- 
quenzvektor w nach (5.89) nicht liegen darf. In Abbildung 5.3 sind exemplarisch sechs dieser 


Ebenen veranschaulicht. Die Menge Q, für die nach Satz 5.2 folgt, dass o = d(zpr) Vw € Q 
PE ist, wird durch den Raum R° ohne diese 21 Ebenen beschrieben. 


In Übereinstimmung mit Lemma 5.7 existieren somit geeignete Frequenzen we Q, da Q #9 
gilt. Durch die Wahl der verbliebenen Freiheitsgrade w. E€ Q und v € R",v; # 0, nach 
Lemma 5.9 folgt somit 


(5.90) 


ae t °| a a | 


0 n sin(wst) 


112 Die Berechnung der Matrizen C’;, welche die Frequenzbedingungen Q nach Abschnitt 5.4 definieren, erfolgt 
mithilfe des Computeralgebraprogramms MAPLE 2018. 
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er Bm er 00 3] Csi = =] 
en 1 0] Co = [0 -1] Cy=[0 1 1] 
Ge = [0 0 1 Ci =[1 =i 2 Cr = |i 1 -2] 
Cı=|1 1 2] Cu=[0 1 -3] Cg=[1 0 3] 
Of = [l0 1 3] tel = 0] Cws=fi 0] 
Co=[1 -4 0] Cs=[1 4 0] Cyo=[1 -3 0] 
ae 3 0] Cusi © 1] Casi 0 =í 


Tabelle 5.1: Matrizen C’; der Frequenzbedingungen Q für das Simulationsbeispiel nach Abschnitt 5.7. 


Qa Dr=2 Q:=3 Qz:=9 VzH15 Voz =20 


Abbildung 5.3: Grafische Veranschaulichung der Frequenzmenge Q. Der Ubersichtlichkeit halber wurden beispiel- 
haft sechs der 21 Ebenen, welche durch Cz in Tabelle 5.1 definiert sind, und nach (5.89) verbotene 
Frequenzen beschreiben, skizziert. Der Koordinatenursprung ist durch das schwarze Kreuz gekenn- 
zeichnet. 
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5.7.2.2 Berechnung von u., basierend auf pr 


Um, wie in Abschnitt 5.6 beschrieben, mithilfe eines flachheitsbasierten Vorsteuerungsent- 
wurfs das Anregungssignal u., zu erhalten, wird zunächst das durch (5.85) gegebene Beispiel- 
system untersucht. Aufgrund von 


sin (4x7) +2 


g(x) = giz) cos(2x,) + 2 (5.91) 
= 91 (2) aire aaa 
= (x 


(vgl. (5.68)) wird g(x) = g(x) und gy(x) = go(x) gewählt und der zweite Eingang des 
T 
Anregungssignals Uex = [tex Uex,2| wird zur Anregung nicht benötigt. Daher wird 


Uex,2 = Uex,ıı = 0 gesetzt und im Folgenden Uex,ı = Uex 1 betrachtet. Durch h(a) = xı ist 
aufgrund von 


Lg h(x) = 0 

(5.92) 

Lg Ls h(x) = cos(221) + 2 =: D(x) 
ein (fiktiver) Ausgang mit maximalem relativen Grad (6 = n = 2) gegeben. Da außerdem 
D(a) # 0 gilt, ist das betrachtete System flach, eine flachheitsbasierte Vorsteuerung existiert 
[Lév09, S. 143 f.], und aus dem Sollverlauf der Anregungstrajektorie (5.90) ergibt sich das 
Anregungssignal tex, "°. Die Gültigkeit von (5.79) in Annahme 5.6 kann, wie in Bemerkung 5.5 
beschrieben, a priori bestätigt werden. Zudem gilt Rang(M;) = hi. Dies ist in Anhang C.3 
ay] aay! 


ausgeführt. Somit resultiert eine Vorsteuerung der Form Uex,1 (z Wy, Ws i die eine exakte 


Systeminversion in Abhängigkeit der aktuellen Reglergewichte erlaubt. 


5.7.3 Simulationsergebnisse 


Neben den in Abschnitt 5.7.2 konstruierten Anregungssignalen Uex,1,;, 7 € N, die aus un- 
terschiedlichen Beispielsignalen pg, j resultieren, soll der Einfluss weißen Rauschens als 
Anregungssignal untersucht werden. Dazu wird das Signal tex ı,„(t) verwendet, das in der 
Simulation durch eine Pseudozufallsfolge mit At = 0,01s und anschließendem Halteglied 
erzeugt wird, sodass eine mittelwertfreie weiße Gaußverteilung mit einer Standardabweichung 
von 2,8 approximiert wird!!. Im Folgenden wird die Konvergenz der Critic-Gewichte wl, 
i € N, für diese unterschiedlichen Anregungssignale untersucht. Eine erste Untersuchung 
in Abschnitt 5.7.3.1 verwendet hierbei bezüglich der Maximalamplitude von ø; normierte 
Lernraten. In einem zweiten Schritt werden in Abschnitt 5.7.3.2 Anregungssignale mit gleicher 
mittlerer Leistung bei Nutzung identischer Lernraten betrachtet. 


113 Die analytischen Berechnungen erfolgen mithilfe des Computeralgebraprogramms MAPLE 2018. Die anschließen- 
den numerischen Simulationen erfolgen in MATLAB. 

114 Der Wert 2,8 der Standardabweichung ist so gewählt, dass die mittlere Signalleistung von uex,1,w(t) über der 
Simulationsdauer Tsim der mittleren Signalleistung von Uex,1,1 (t) entspricht. Dies spielt im späteren Vergleich 
der Effizienz von Anregungssignalen derselben mittleren Signalleistung eine Rolle. 
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5.7.3.1 Normierte Lernraten 


Um den Einfluss unterschiedlicher Signalamplituden von ø; zu Vergleichbarkeitszwecken der 
verschiedenen Anregungssignale auszugleichen, werden in einer ersten Simulation normierte 
Lernraten 


7) F 
Tnorm,i = =, Vi € {1, 2}, (5.93) 
i,max 
verwendet. Hierbei stellt 7, > 0 eine Konstante dar, die für alle Anregungssignale identisch 
gewählt ist, und Gimax > |jo ||; wird simulativ für jedes der verwendeten Anregungssi- 


gnale ermittelt. Mit der normierten Lernrate norm, aus (5.93) folgt für die Abschätzung der 
Konvergenzrate 


2T 1 afi 
(1 ale Ti)? Or màx 


(vgl. (5.22)). Da nach (5.19) größere Amplituden von g; und somit größere Werte von 0; max 
in gleichem Maße zu einer Erhöhung von az; führen, gleicht die Normierung der Lernrate 
unterschiedliche Signalamplituden von ø; aus. Die Abschätzung der Konvergenzgeschwin- 
digkeit p; des Gradientenabstiegs nach (5.15) hängt (neben der für alle Anregungen identisch 
gewählten Größe ny) somit nur noch von der Qualität der Erfüllung der PE-Bedingung ab, 
da ein höherer Grad ar; der Erfüllung der PE-Bedingung (bei gleichbleibendem c; max und 
gleicher Zeitkonstante T;) zu schnellerer Konvergenz führt. 


Im Folgenden werden die drei Beispielsignale 


TpE,1 = A 
I 1 |sin(3s=!#) + sin(1s7!t) (5.95) 
TpE2 = 7 . ’ 

4 sin(2 s-1t) 


Epp,3 = 2Xpp,2 


gewählt (vgl. (5.90)), wobei gemäß Tabelle 5.1 w € Q gilt. Die zugehörigen Anregungssignale 
Uex,1,j (t, wi! ; wh!) , Vj € {1,2,3}, werden damit, wie in Abschnitt 5.6 und Abschnitt 5.7.2.2 


beschrieben, berechnet. Die initialen Critic-Gewichte werden zu 


1,783 0,8916 
wl = |-233], wl = |-1,165 (5.96) 
2,215 1,107 


gewählt. Die Regelgesetze AP (a), Vi € N, werden aus den in (5.96) gegebenen Gewichten 


über den Zusammenhang (5.24) berechnet. Diese Initialisierung entspricht stabilisierenden 
initialen Regelgesetzen, die jedoch nicht der Nash-Lösung (vgl. (5.87)) entsprechen. Mit dem 
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exemplarisch gewählten Wert ny = 10? ergeben sich die in Tabelle 5.2 gezeigten normierten 
Lernraten Mnorm,i, Vi € N, nach (5.93). Der Policy-Evaluation-Schritt erfolgt mithilfe des 
durch (5.15) beschriebenen Gradientenabstiegs. Als Abbruchbedingung der Policy Evaluation 
wird im Folgenden 


jot (t—7) — ål ol, < 107%, (5.97) 


Vi € N, mit dem Designparameter T = 40 s, verwendet!!°. Der Policy-Improvement-Schritt 
[+1] 


geschieht anschließend mithilfe des Critic-Gewichts w; des jeweiligen Spielers i € N 


basierend auf (5.24). 


Abbildung 5.4 zeigt den Verlauf der Critic-Gewichte wl, i € {1,2}, exemplarisch für die 
Verwendung der Anregungssignale wex,ı,ı und Uex,1,w. Die resultierenden Fehlernormen 
|w} — willa i € {1,2}, für die Anregungssignale wex,1,; mit j € {1,2,3} und uex,ı,w sind 
in Abbildung 5.5 gezeigt. Für alle vier betrachteten Anregungssignale konvergieren die 


adaptiven Optimalregler gegen die Nash-Lösung. Die Konvergenzzeiten Tony, ab denen 
|e; (t) ||, < 1073, Yi € N, gilt, sind Tabelle 5.2 zu entnehmen. 


Das Eigenwertsignal Amin,2(t) zur Überprüfung der PE-Eigenschaft nach Lemma 5.11, das für 
die vier verwendeten Anregungssignale resultiert, ist in Abbildung 5.6 gezeigt. Gemäß dem in 
Abschnitt 5.5 beschriebenen Verfahren können für den gewählten numerischen Schwellwert 
a, = 1074 für alle vier Anregungssignale Zeitpunkte T, gefunden werden, für welche die 
Ungleichung (5.55) mit T = Ty und œ = œ erfüllt ist. Diese Zeitkonstanten TJ; sind in 
Tabelle 5.2 gegeben. Die Eigenwertsignale Amin, ı (t) in Abbildung 5.7 zeigen, dass Lemma 5.10 
mit a = 1074 und T = T, nach Tabelle 5.2 erfüllt ist, und somit die Signale o;, Vi € {1,2}, 
für die betrachteten Anregungssignale tatsächlich die PE-Bedingung erfüllen. 


5.7.3.2 Gleiche mittlere Anregungssignalleistung 


Während eine Normierung der Lernraten des Gradientenabstiegs nach (5.93) insbesondere 
Unterschiede der Amplitude von ø; zu Vergleichszwecken ausgleicht, soll zudem ein weiteres 


Uex,1,1(t) Uex,1,2(t) Uex,1,3(t) Uex,1,w (#) 


Torm i» Vi € {1,2} 36,50 80 5,99 41,49 
Tics 241s 497 490s 3311s 
T 1,14s 3,618 154s  11,56s 


Tabelle 5.2: Normierte Lernraten 7norm,; nach (5.93), Konvergenzzeiten Tony und Zeitpunkte T als Kandidaten 
für (5.55) mit T = T; und a = at = 1074 für die Anregungssignale uex,ı,;(t) (Vj € {1, 2, 3}) und 
Uex, l,w (t). 


115 Grundsätzlich ist 7 hierbei ein frei wählbarer Designparameter. Da nach Lemma 5.1 jedoch zunächst nur eine 


Verbesserung der geschätzten Critic-Gewichte wl 


nicht kleiner als T; gewählt werden. 


l für ein Intervall der Länge T; gewährleistet wird, sollte 7 
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a a a * * * 
— WÚ; Wj  W.,3 —w Wo wg 


S 8 
E 2 | i i | | | i 
0 100 200 300 400 0 100 200 300 400 
tins tins 
(a) Ù unter Verwendung des Anregungssignals uex,ı,1 (b) wa unter Verwendung des Anregungssignals tex,1,1 
3 3 
u 2 ji i i | | i | 
0 1000 2000 3000 4000 0 1000 2000 3000 4000 
tins tins 
(c) Ù unter Verwendung weißen Rauschens (Uex,ı,w) (d) Ùz unter Verwendung weißen Rauschens (Uex,ı,w) 


Abbildung 5.4: Verlauf der Critic-Gewichte Ùw; und w2 unter Verwendung des Anregungssignals uex,ı,ı (oben) 
bzw. weißen Rauschens Uex,1,w (unten) mit nach Tabelle 5.2 normierten Lernraten. Zu beachten ist 
insbesondere die um Faktor 10 unterschiedlich skalierte Zeitachse. 


Kriterium zur Untersuchung der Effizienz der Anregungssignale betrachtet werden. Hierbei 
wird ein Anregungssignal als effizienter im Vergleich zu einem anderen Signal bezeichnet, 
wenn es bei identischer mittlerer Signalleistung 


Tsim 

E ul, (t)uex(t) dt (5.98) 

Tsim Jo 
und gleicher Lernrate 7; zu schnellerer Konvergenz der Critic-Gewichte w, führt. Somit 
wird mit diesem Bewertungskriterium insbesondere bestraft, wenn ein Anregungssignal 
Uex(t) Signalanteile besitzt, die, beispielsweise durch eine mögliche Tiefpasscharakteristik 
des Systems, nicht zu einer Auslenkung des Systemzustands und somit zur Anregung von 6; 
beitragen. 


Daher sollen im Folgenden die Anregungssignale Uex,1,1 und Uex,ı,w, welche die gleiche 
mittlere Signalleistung nach (5.98) aufweisen und in Abbildung 5.8 gezeigt sind, bei identischer 
Lernrate 7; = 1,i € N, hinsichtlich der Konvergenz der Critic-Gewichte wÙ; untersucht 
werden. Wie Abbildung 5.9 veranschaulicht, lenkt, bei gleicher mittlerer Signalleistung, das 
Anregungssignal uex,ı,ı den Systemzustand æ stärker aus als weißes Rauschen. Für diese 
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* a 


— Jw; will, ,, — lot will... 
— lw; -illah — lez- will... 
3 
5 2 | 
| 
0 
0 500 1000 1500 2000 2500 3000 3500 4000 
tins 
1,5 
3 1 _| 
| 
3 0,5 4 
0 
0 500 1000 1500 2000 2500 3000 3500 4000 
tins 


Abbildung 5.5: Norm des Fehlers der Critic-Gewichte || ws — Ww; lls: i € {1,2}, für die Anregungssignale uex 1,5» 
j € {1,2,3}, (Sinussignale) und uex,1,w (weißes Rauschen) mit nach Tabelle 5.2 normierten 
Lernraten. 


—— Amin,2 Uex,1,1 -_—— Amin,2 —— Amin,2 Uex,1,3 — Amin,2 Uex,1,w 


Uex,1,2 


10! 


Amin,2 


107? 


—5 | | | | | | | | | 
10 0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 


tins 


Abbildung 5.6: Eigenwertsignal Amin,2(t) zur Überprüfung der PE-Eigenschaft nach Lemma 5.11. Zu beachten ist 
die logarithmische Darstellung der Ordinate. 
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--- 0a = 


mins] ape 11 min, 1 fuey,1,2 min, fuex,1,3 min, Lape tw 


10° T T T T T 


107? 


Ammi 


1074 


Abbildung 5.7: Eigenwertsignal Amin,ı (t) zur Überprüfung der PE-Eigenschaft nach Lemma 5.10. Der Übersicht- 
lichkeit halber sind nur die ersten 30 s gezeigt. Die gestrichelte horizontale Linie entspricht dem 
gewählten Schwellwert œt = 1074. Zu beachten ist die logarithmische Darstellung der Ordinate. 


beiden Anregungssignale wird die Konvergenz eines einzelnen Policy-Evaluation-Schrittes 
„,[0] [0] 


im Folgenden betrachtet. Die initialen Critic-Gewichte w; `, i € M, und Regelgesetze 1; (£) 
werden wie in Abschnitt 5.7.3.1 gewählt. 
w 


i 


Der Verlauf der Critic-Gewichtsfehler ,i € N, ist in Abbildung 5.10 gegeben. 
2 


Bei der hier untersuchten Lernrate von n; = 1 genügt die Simulationsdauer von 4000 s für die 


Mm at] 


Anregung mit weißem Rauschen, d.h. unter Verwendung von Uex,1,w, nicht, um Konvergenz 


der Critic-Gewichte wl! zu erreichen. So gilt in diesem Fall nach t = 4000s 


ot = all = 0,31 und Res — woh! | = 0,16. (5.99) 


Unter Verwendung des Anregungssignals uex,ı,ı folgt hingegen bereits nach t = 338s, dass 
ol! — wl" || < 0,01, vi € {1,2}, gi. 
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Abbildung 5.8: Anregungssignal uex,ı für Zpg,ı nach (5.95) (d. h. uex,1,1) und uex,1,w (d.h. weißes Rauschen) für die 
ersten 15s der Simulation. Durch die Standardabweichung von 2,8 bei der Erzeugung von uex,1,w 
haben beide Anregungssignale die gleiche mittlere Signalleistung. 
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Abbildung 5.9: Verlauf der Zustandsgröße a(t) für die Anregungssignale uex,ı,ı (Sinussignale) und uex,1,w (weißes 
Rauschen), welche die gleiche mittlere Anregungssignalleistung aufweisen. 
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Abbildung 5.10: Verlauf der Critic-Gewichtsfehlernorm | w — wi! | „i € N, unter Verwendung des Anre- 


gungssignals tex,1,1 bzw. weißen Rauschens tex,1,w, welche die gleiche mittlere Anregungssignal- 
leistung aufweisen, bei identischen Lernraten 7; = 1. 
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5.8 Diskussion 


Die Erfüllung der PE-Eigenschaft spielt für die Konvergenz ADP-basierter Regelungsmethoden 
eine zentrale Rolle. Durch den nichtlinearen Zusammenhang zwischen dem Systemzustand x 
und den für den Adaptionsvorgang relevanten Signalen ø; sind die in der Literatur vorhande- 
nen theoretischen Aussagen zu linearen Transformationen von PE-Signalen nicht ausreichend, 
um Rückschlüsse darüber zu ziehen, für welche Zustandstrajektorien das Signal ø; die PE- 
Eigenschaft erfüllt. 


Die vorliegende Arbeit schließt diese Lücke, indem für polynomielle Basisfunktionen (x) 
erstmalig ein allgemeingültiges hinreichendes Kriterium an den Systemzustand æ präsen- 
tiert wird, sodass ø; die PE-Bedingung erfüllt. Proposition 5.1 formuliert hierzu zunächst 
allgemeine Forderungen an eine Menge Q an Frequenzbedingungen, um die Erfüllung der 
PE-Bedingung von g; zu gewährleisten. Durch Satz 5.2 ist schließlich eine konkrete Entwurfs- 
methode für eine solche Menge Q gegeben. Damit gilt für jeden beliebigen Vektor w € Q, 
dass das Anregungstrajektoriensignal £p (t) SR bezüglich &(-) und somit o = (ape) PE ist. 
Da die genauen Amplituden der Sinus- und Kosinusterme in der Anregungstrajektorie rpg 
bei der Analyse nicht berücksichtigt wurden, sind die durch Q beschriebenen Bedingungen 
(vgl. Proposition 5.1 und Satz 5.2) hinreichend. Somit können bei geeigneten Amplituden- 
verhältnissen gegebenenfalls w ¢ Q existieren, für die ø; dennoch die PE-Bedingung erfüllt. 
Für den praktischen Entwurf von Anregungssignalen ist dies jedoch unerheblich. Die Simu- 
lationsergebnisse bestätigen die Konvergenz einer gradientenbasierten Policy Evaluation, 
wenn g; Vi € N die PE-Bedingung erfüllt. Dies gilt sowohl für eine Anregung mit weißem 
Rauschen als auch für Anregungssignale, die, wie in Abschnitt 5.6 beschrieben, auf Basis der 
theoretischen Erkenntnisse aus Satz 5.2 konstruiert sind. Für die praktische Überprüfung der 
Erfüllung der PE-Bedingung wurden in Abschnitt 5.5 zudem die Eigenwertsignale Amin,2 und 
Amin,ı präsentiert. 


Die Untersuchungen des vorliegenden Kapitels beschränken sich aufgrund von Annahme 5.3 
bislang auf polynomielle Basisfunktionen (a). Für den Fall, dass diese Annahme verletzt 
ist, könnte eine Taylor-Approximation von d(x) zukünftig weitere Analysen ermöglichen. 
Bei hinreichend kleinem Restterm dieser Approximation könnten dann, ähnlich wie in Lem- 
ma 5.12, Rückschlüsse über die Erfüllung der PE-Bedingung gezogen werden. Auch sind die 
theoretischen Analysen bislang auf den Fall der zeitkontinuierlichen PE-Bedingung (2.27) 
begrenzt. Sie könnten jedoch als Ausgangspunkt für die Untersuchung der zeitdiskreten 
PE-Bedingung (2.29) dienen. 


Aus den theoretischen Analysen dieses Kapitels lassen sich schließlich wesentliche Erkennt- 
nisse schlussfolgern, die für den Entwurf von Anregungssignalen für ADP-basierte Regler 
hilfreich sind. So kann bereits eine geringe Anzahl an Frequenzen w € Q im Systemzustand x 
ausreichend sein, damit ø; PE ist. Hierbei lässt Satz 5.2 Freiheiten bei der Wahl der Frequenzen 
und Amplituden in xpg(t). Anstatt, wie bei der Anregung mit weißem Rauschen, alle Frequen- 
zen gleich stark im Anregungssignal zu verwenden, können diese Freiheitsgrade dazu dienen, 
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die Anregungssignalleistung effizient zu nutzen. Auch könnten die Freiheitsgrade gegebe- 
nenfalls für eine zukünftige Optimierung der Konvergenzeigenschaften verwendet werden. 
Liegt darüber hinaus sogar (ggf. teilweise) Vorwissen über das Übertragungsverhalten des 
betrachteten Systems vor (beispielsweise über dessen Tiefpass- oder Bandpasscharakteristik), 
so können die Anregungsfrequenzen entsprechend gewählt werden. 


Zusammenfassend verdeutlicht dieses Kapitel, dass die präsentierten Anregungssignale, die 
ihre Signalleistung auf niedrigere Bereiche des Frequenzspektrums konzentrieren, deutlich 
effizienter zur Anregung beitragen können, als dies bei der Verwendung von weißem Rauschen 
der Fall ist. Dies zeigt sich selbst bei der Nutzung normierter Lernraten durch eine wesent- 
lich schnellere Konvergenz der Critic-Gewichte und somit des Policy-Iteration-Algorithmus 
(85,0 %-92,7 % Verbesserung, vgl. Tabelle 5.2 und Abbildung 5.5). Bei gleicher mittlerer An- 
regungssignalleistung nach (5.98) zeigt sich bei identischen Lernraten n; = 1 im betrachteten 
Simulationsbeispiel die Überlegenheit des analytisch berechneten Anregungssignals im Ver- 
gleich zu weißem Rauschen sogar noch deutlicher (vgl. Abbildung 5.10). Somit liefert dieses 
Kapitel Antworten auf die in Abschnitt 2.4.2 formulierte Forschungsfrage 2 hinsichtlich der 
Bedingungen an Systemzustände, um die PE-Eigenschaft zu erfüllen und Konvergenz der 
betrachteten ADP-Methode zu gewährleisten. 


6 Reale Anwendung ADP-basierter 
Solltrajektorienfolgeregler 


Nach den theoretischen Beiträgen zu zeitdiskreten (Kapitel 3) und zeitkontinuierlichen (Kapi- 
tel 4) ADP-kompatiblen Solltrajektoriendarstellungen und Konvergenzbedingungen (Kapitel 5) 
werden in diesem Kapitel zwei reale Anwendungsbeispiele ADP-basierter Solltrajektorienfol- 
geregler betrachtet. Da bei diesen realen Systemen Messungen der Ausgangs- bzw. Zustands- 
größen zu diskreten Zeitpunkten stattfinden, wird eine zeitdiskrete Darstellung verwendet. 
Unter den in Kapitel 3 präsentierten zeitdiskreten Methoden erscheint insbesondere die in 
Abschnitt 3.2 vorgestellte ADP-kompatible parametrierte Referenztrajektoriendarstellung viel- 
versprechend, da durch die parametrische lokale Approximation des Solltrajektorienverlaufs 
eine kompakte Darstellung vorliegt (vgl. auch Abschnitt 3.4). 


In Abschnitt 6.1 wird ein modellfreier Actor-Critic-Ansatz angewandt, um eine Längsregelung 
eines realen Fahrzeugs zu realisieren, wobei online, d. h. während der Fahrt, die Reglergewichte 
adaptiert werden. Motiviert ist dieses Anwendungsbeispiel durch eine wachsende Modellviel- 
falt und den Wunsch, ausgehend von einer initialen Reglerparametrierung, die beispielsweise 
aus einem vorhandenen modellbasierten Reglerentwurf resultiert, eine automatisierte Feinab- 
stimmung vornehmen zu können. Durch die Verwendung der parametrischen Darstellung des 
Sollgeschwindigkeitsverlaufs wird dabei zusätzlich zu einem Ausgangsrückführungsterm ein 
Vorsteuerterm gelernt. Abschnitt 6.2 betrachtet schließlich ein reales Ball-auf-Platte-System. 
Für dieses beliebte regelungstechnische Benchmarksystem wird ebenfalls ein modellfreier 
Trajektorienfolgeregler trainiert und mit einem modellbasierten Ansatz verglichen. Betrach- 
tet werden dabei modellfreie ADP-Solltrajektorienfolgeregler, die den Sollpositionsverlauf 
einerseits durch ein Polynom zweiten Grades und andererseits durch eine stationäre Sollzu- 
standsvorgabe beschreiben, sowie ein modellbasierter Vergleichsregler. Hierbei offenbaren 
sich die Vorteile des präsentierten Ansatzes, der ohne aufwendige Modellbildung zu den 
geringsten Kosten im Sinne des zugrunde liegenden Gütefunktionals führt. 


6.1 Modellfreie, adaptive Längsregelung eines realen 
Fahrzeugs 


In diesem Abschnitt wird die in Kapitel 3 vorgestellte ADP-kompatible parametrierte Referenz- 
trajektoriendarstellung verwendet, um einen Geschwindigkeitsregler, der einem vorgegebenen 
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Geschwindigkeitsprofil folgen soll, mithilfe einer Online-ADP-Methode in einem realen Fahr- 
zeug zu trainieren!!°. Das verwendete Versuchsfahrzeug ist in Abbildung 6.1 zu sehen. 


Bei der ADP-basierten Geschwindigkeitsregelung eines realen Fahrzeugs ergeben sich zwei 
wesentliche Herausforderungen. Erstens muss der Sollgeschwindigkeitsverlauf durch eine 
ADP-kompatible Solltrajektoriendarstellung repräsentiert und in den ADP-Formalismus in- 
tegriert werden (vgl. Abschnitt 2.2 und Kapitel 3). Zweitens basiert die Längsdynamik des 
Versuchsfahrzeugs auf einer Aktuatorik (Antriebsstrang und Bremssystem) mit vergleichswei- 
se langsamen dynamischen Vorgängen und teilweise nicht gemessenen internen Zuständen 
(vgl. [PRH19]). Anstelle des Systemzustands liegt nur eine Ausgangsgröße in Form der gemes- 
senen Fahrzeuggeschwindigkeit vor. Würden die nicht messbaren Zustände der Aktuatordyna- 
mik jedoch schlicht ignoriert, wäre damit die Markov-Annahme verletzt. Die in der Literatur 
vorhandenen ADP- oder RL-basierten Geschwindigkeitsregler, die zudem meist auf Simulatio- 
nen basieren oder nicht online lernen (vgl. Abschnitt 2.2.4), ignorieren dieses Problem bislang. 
Beispielhaft seien [BK18], [NCH08], [DCd11], [PT12], [WXL* 14] und [WZLD15] zu nennen. 
Im Folgenden wird hingegen, wie in den Arbeiten von Puccetti et al. [PRH19], [PKRH20] 
vorgestellt und in Anhang D.1 motiviert, ein FIR-Filter!!?” verwendet, um den Lernvorgang 
durch einen geschätzten Hilfszustand zu stützen. 


Die zentralen Ideen sind somit die Verwendung der in Abschnitt 3.2 vorgestellten zeitdiskreten 
ADP-kompatiblen parametrierten Referenztrajektorie sowie eines FIR-Filters zur Rekonstruk- 
tion fehlender Zustandsinformationen. Ersteres ermöglicht, nicht nur die aktuelle Wunschge- 
schwindigkeit, sondern eine lokale Approximation des aktuellen Wunschgeschwindigkeitspro- 


Abbildung 6.1: Versuchsfahrzeug (BMW 740Li), das für die modellfreie, adaptive Längsregelung mittels eines Online- 
ADP-Ansatzes verwendet wurde. Bildquelle: BMW Press Club (Zugriff am 19.10.2021). 


116 Ergebnisse dieses Abschnitts wurden im Rahmen zweier Konferenzbeiträge veröffentlicht [KPRH20], [PKRH20]. 
117 (engl.): finite impulse response filter. Filter mit endlicher Impulsantwort. 
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fils explizit zu berücksichtigen. Die Off-Policy-Charakteristik (vgl. Abschnitt 2.1.4.4) der ver- 
wendeten Actor-Critic-Methode erlaubt zudem einerseits, das Wunschgeschwindigkeitsprofil 
während des Trainingsvorgangs künstlich durch zusätzliches Anregungsrauschen des Soll- 
verlaufs zu überlagern, und andererseits die Verwendung von Experience Replay [MKS* 13], 
[MKSt 15]. 


Nachfolgend wird zunächst die zugrunde liegende Problemstellung formuliert, bevor der 
verwendete modellfreie ADP-Solltrajektorienfolgeregelungsalgorithmus mit Zustandsrekon- 
struktion vorgestellt wird. Anschließend werden Trainingsergebnisse im Realfahrzeug sowie 
Validierungsfahrten präsentiert. Eine abschließende Diskussion rundet den Abschnitt ab. 


6.1.1 Problemstellung 


Ziel ist ein datenbasierter, selbstlernender ADP-Algorithmus, der in einem Realfahrzeug um- 
gesetzt wird und online einen Geschwindigkeitsregler adaptiert, der einer ADP-kompatiblen 
Approximation gewünschter Sollgeschwindigkeitsverläufe optimal im Sinne eines gegebenen 
Gütefunktionals folgt. 


Der ADP-Regler verfügt dabei jedoch über kein Modell der Longitudinaldynamik, die An- 
triebsstrang, Bremssystem und eine unterlagerte Regelung beinhaltet. Wie in Abbildung 6.2 
dargestellt, beschreibt diese Longitudinaldynamik den Zusammenhang zwischen der Ein- 
gangsgröße uz, die der angeforderten Beschleunigung im Zeitschritt k entspricht, und der 
tatsächlichen Beschleunigung ap, die jedoch nicht gemessen wird!"®. Stattdessen steht dem 
ADP-Regler lediglich eine Messung der Geschwindigkeit yx zur Verfügung. 


Zum Zeitschritt k ist der Sollgeschwindigkeitsverlauf auf einem Vorausschauhorizont der Län- 
ge np durch Yr soll,ks Yr,soll,k+13 +++ > Yr,soll,k-+n,—1 beschrieben. Aus diesem zunächst beliebigen 
Geschwindigkeitsprofil wird in jedem Zeitschritt k eine nach Definition 3.1 ADP-kompatible 
lokale Approximation 


Yr (a = Yr(Zk, K) = zZ, P(K) (6.1) 


(vgl. (3.15)) des Solltrajektorienverlaufs berechnet. Dabei gewichtet zę die gegebenen Basis- 
funktionen p(x) und x bezeichnet einen Zeitindex. Gesucht ist ein Regelgesetz u (ve: 2), 


das die Value Function 


ye (Yk, Zp) 7 5 Ace (Yer TC >H (ui 2) 
K=0 


= ` yr (2, (ee 4 TED +R (u (v21”)) ) 
K=0 


118 Abhängig vom Entwurfsziel des Reglers und anderen Faktoren, wie beispielsweise äußeren Störeinflüssen, 


(6.2) 


kann es sinnvoll sein, dass die Stellgröße wz, von der numerischen Differenziation des Sollgeschwindigkeitspro- 
fils abweicht. Das Ziel des ADP-Reglers ist daher, die optimale Stellgröße u; bezüglich eines vorgegebenen 
Gütefunktionals zu erlernen. 
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Abbildung 6.2: Struktur der gegebenen Problemstellung zur Längsregelung eines realen Fahrzeugs. Basierend auf 
der Ausgangsgröße yg, die der gemessenen Geschwindigkeit des Fahrzeugs entspricht, sowie dem 


Sollgeschwindigkeitsprofil Yr,soll,k:k-+ny,—1 = [Yr soll, k Yr sol,k+1 ++ Yr,soll,k-+-n,—1] und 
einem internen Kostensignal r(-) soll der Regler adaptiert werden. 


minimiert (vgl. (3.37)). Hierbei wird mit Qy > 0 und R > 0 sowohl die Abweichung der 
Geschwindigkeit y,+,, im Zeitschritt k + x von der approximierten Sollgeschwindigkeit 


Yr (= ) als auch der Stellaufwand quadratisch bestraft. Eine im Sinne der ADP-kompatiblen 


Solltrajektoriendarstellung resultierende Verschiebung des Parametervektors zę um x Zeit- 
schritte ist dabei durch 


z = z,D(k) (6.3) 
(vgl. Definition 3.2) gegeben. D(x) stellt eine Verschiebungsmatrix dar, die so gewählt wird, 
dass 
(Zt) = (20.5) = ment), Yaj € No, (6.4) 
gilt. 


Bemerkung 6.1 


Die ADP-kompatible Approximation des Sollgeschwindigkeitsverlaufs in (6.1) durch den 
endlichdimensionalen Vektor zę hat zur Folge, dass die Value Function V” in (6.2) trotz 


des unendlichen Optimierungshorizonts durch einen funktionalen Zusammenhang der 
Form V" (yx, zę) beschrieben werden kann (vgl. Proposition 3.1). 


6.1.2 Modellfreier ADP-Solltrajektorienfolgeregler mit 
Zustandsrekonstruktion 


In diesem Abschnitt wird der verwendete modellfreie ADP-Solltrajektorienfolgeregler mit 
Zustandsrekonstruktion und Vorsteuerterm präsentiert. Grundsätzlich finden hierbei zwei 
wesentliche Modifikationen statt. Erstens wird in Abschnitt 6.1.2.1 eine erweiterte Q-Function 
definiert. Neben der gemessenen Geschwindigkeit yọ hängt diese Q-Function vom Vektor z% 
ab, der im Zeitschritt k den approximierten Sollgeschwindigkeitsverlauf beschreibt (vgl. (6.1)). 
Zweitens werden dieser Q-Function zusätzlich vergangene Stellgrößen zur Verfügung ge- 
stellt, um, wie in Abschnitt 6.1.2.2 beschrieben, einen Hilfszustand zx; zu schätzen, der den 
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Lernprozess stützt!!?. Die Schätzung dieses Hilfszustands erfolgt mithilfe eines FIR-Filters. 


Schließlich wird in Abschnitt 6.1.2.3 eine Übersicht über den verwendeten Algorithmus des 
ADP-basierten Geschwindigkeitsreglers präsentiert. 


6.1.2.1 Q-Function und Solltrajektorienapproximation 


Die zur Value Function V” nach (6.2) gehörende Q-Function ergibt sich zu!” 


Q" (Yk, Zk, Uk) = r (Yk, (Zr), Uk) + YQ" (vna, ulun,2{))- (6.5) 


Der zu trainierende Geschwindigkeitsregler basiert im Folgenden auf einer Approximation 
erster Ordnung (Polynom vom Grad d = 1) des Sollgeschwindigkeitsprofils. Somit gilt 


Sec an (6.6) 


wobei At die Abtastzeit des Systems beschreibt!?!. Zu Vergleichszwecken!” wird ein zweiter 
Regler betrachtet, der in jedem Zeitschritt k den Sollgeschwindigkeitsverlauf durch eine 
konstante Approximation (Polynom vom Grad d = 0) beschreibt, d.h. 


p(k)=1, D(ik) =1. (6.7) 


Analog zu (3.72) mit 6 = 1 wird der Referenztrajektorienparameter zę durch 


zl = [zik os) Sabi kl = [Yr solk Yrsol,k+1 --- Yrsol,k+n—1| Pis 6:8) 


berechnet. Hierbei kann die durch 


p7 (0) PO) JTT Aao g 
Pe © 4 p = p =» as 


pt(rm—1)) \lorm-n| Lot — 1) 


Dieser Hilfszustand muss dabei nicht notwendigerweise physikalisch interpretierbar sein. Neben der nicht 
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gemessenen Beschleunigung a; können weitere interne Größen der Longitudinaldynamik Einfluss auf £,, haben. 
Grundsätzlich kann sich der Parameter z;,, der den Solltrajektorienverlauf beschreibt, beliebig mit der Zeit k 
ändern. Daher würde die Verwendung von z;, und 2,41 in (6.5) die Markov-Annahme verletzen. Aufgrund der 
Verschiebungsmatrix D(x) in (6.3), welche die durch zę gegebene Approximation des Solltrajektorienverlaufs 
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um einen Zeitschritt propagiert, ist die Markov-Annahme für den Zustandsübergang von [yk zI] T nach 


[vers 207] i gewährleistet. Deshalb wird in (6.5) zi) verwendet (vgl. auch Bemerkung 3.2). 


121 Die verwendete Approximation erster Ordnung hat sich für dieses Anwendungsbeispiel als weniger anfällig gegen- 


über Oszillationen erwiesen und der zugehörige ADP-Regler ist zudem im Vergleich zu Approximatoren höherer 
Ordnung einfacher zu trainieren - insbesondere im Hinblick auf die zusätzlich benötigte Zustandsrekonstruktion 
durch ein FIR-Filter. 

Ziel der vorliegenden Arbeit ist das Aufzeigen der grundsätzlichen Anwendbarkeit der vorgestellten Methode. 
Für eine ausführliche Diskussion des hier betrachteten Anwendungsbeispiels sei auf die Arbeiten von Puccetti et 
al. [PRH19], [PKRH20], [KPRH20] verwiesen. 
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definierte Projektionsmatrix aufgrund der Unabhängigkeit von yr sou einmalig im Voraus 
berechnet und gespeichert werden, um Rechenzeit während des Onlinetrainings und Online- 
betriebs einzusparen. Der Rechenaufwand für die Approximation des Sollverlaufs nach (3.72) 
reduziert sich somit in jedem Zeitschritt k zu einer einzelnen Matrixmultiplikation. 


Bemerkung 6.2 


Ein Regler, der auf einer konstanten Sollgeschwindigkeitsapproximation (d = 0) basiert, 
entspricht dem in [PKRH20] präsentierten Ansatz zur ADP-basierten Geschwindigkeits- 
regelung ohne Vorsteuerterm. Die Verwendung einer linearen Sollgeschwindigkeitsap- 


proximation (d = 1) hat hingegen zur Folge, dass dem Regler zusätzlich zur aktuellen 
Sollgeschwindigkeit die aktuelle Sollbeschleunigung, d. h. die erste Ableitung des Sollge- 
schwindigkeitsprofils im Zeitschritt k, zur Verfügung gestellt wird. Die Projektion in (6.8) 


übernimmt dabei unter anderem die Aufgabe einer numerischen Differenziation'*”. 


6.1.2.2 Netzwerkarchitektur der Q-Function-Approximation 


Dem ADP-Regler werden, neben yx und z;., vergangene Stellgrößen übergeben, aus denen 
fehlende Zustandsinformation rekonstruiert werden soll. Diese Idee folgt damit dem Vorgehen 
von Puccetti et al. [PKRH20], [PRH19]. Konkret wird eine Approximation 


a RR ER (6.10) 
aus hrır vergangenen Stellgrößen 
. T 
Uk—hpr:k-1 = ner Uk—hpy+l ` ur-ı] (6.11) 


und den zu schätzenden Gewichten wrr € R”"* verwendet. Dies entspricht einem FIR-Filter. 
Eine geeignete Länge hrp dieses Filters ergibt sich grundsätzlich anhand der Einschwingzeit 
der Impulsantwort der Aktuatordynamik (vgl. [PRH19]). Basierend auf Erfahrungswerten hat 
sich die Rekonstruktion eines einzelnen Zustands, wie in (6.10) gezeigt, für das hier betrachtete 
Beispiel der Longitudinaldynamik bewährt [PRH19, Abschnitt VI]. 


Die verwendete Netzwerkarchitektur, die diesen Rekonstruktionsmechanismus und den durch 
Zk approximierten Sollgeschwindigkeitsverlauf integriert, ist in Abbildung 6.3 gegeben. Die 
Eingangsgrößen sind durch die Geschwindigkeit yx, den Referenzparametervektor zę, ver- 
gangene Stellgrößen wh —prp:k—1 sowie die aktuelle Stellgröße u, gegeben. Die Schätzung 
Qu? (Tk, ur) der Q-Function Q” (Zp, up) bildet die Ausgangsgröße. Die Wahl der quadrati- 
schen Schicht (‚qf‘) wird in der Arbeit von Puccetti et al. [PRH19] motiviert und folgt aufgrund 
näherungsweise linearer Dynamik des Systems sowie der quadratischen Form des Gütefunk- 
tionals nach (6.2). Im nächsten Abschnitt folgt die Vorstellung des verwendeten Reglers sowie 
dessen Trainingsprozedur. 


123 Beispielsweise resultiert für den Fall d = 1 und np = 2 aus (6.9) gerade Prs = E | und somit aus (6.8) 


At 0 
T= 


Zk [ (Yr,soll,e-+1 z Yr,soll,k) At Yrssoll,k]- 
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Abbildung 6.3: Verwendete Netzwerkarchitektur fiir die Approximation der Q-Function. Hierbei ist d der 
Grad des Polynoms der Sollgeschwindigkeitsapproximation mithilfe der Basisfunktionen p(k) 
und des Gewichts z;. In der ersten Schicht werden einerseits der Geschwindigkeitsfehler 
Yr(Zk) — Yk = Zd+1,k — Yk, der Parameter zę und die aktuelle Stellgröße ux direkt übergeben. 
Andererseits wird mithilfe einer vollständig verbundenen Schicht ((engl.): fully connected layer, 
gekennzeichnet durch ‚fc‘) gemäß (6.10) aus hrr vergangenen Stellgrößen eine Schätzung des 
Hilfszustands &, durchgeführt. Die zweite Schicht (gekennzeichnet durch ‚qf‘) berechnet jede 
multiplikative Kombination aus der vorherigen Schicht und entspricht somit quadratischen Ba- 
sisfunktionen. Die dritte Schicht ist wiederum eine vollständig verbundene Schicht, welche die 
geschätzte Q-Function ausgibt. 


6.1.2.3 Gesamtalgorithmus des ADP-basierten Geschwindigkeitsreglers 


Der ADP-basierte Regelungsalgorithmus gliedert sich in die drei Teile Regelung, Datenaufbe- 
reitung und Training, die nachfolgend erläutert werden. Dabei erfolgt die Regelung mit einer 
durch At gegebenen Abtastzeit. Demgegenüber ist die Updaterate des Trainings durch Al 
gegeben. Um die Echtzeitanforderung der Regelung zu gewährleisten, kann Al von At abwei- 
chen. Eine grafische Übersicht über den Gesamtalgorithmus ist in Abbildung 6.4 gegeben. Eine 
kurze Einführung in während des Trainingsvorgangs verwendete Actor-Critic-Mechanismen 
ist zudem in Anhang D.2 gegeben. 


Regelung 

Der Block Regelung bildet die Schnittstelle zum realen System. Die Eingangsgrößen sind durch 
die gemessene Geschwindigkeit y; und einen von außen vorgegebenen Sollgeschwindigkeits- 
verlauf Yr soll,k; - - - » Yr,soll,k+n,—1 definiert, wohingegen die Stellgröße ux die Ausgabe darstellt. 
Innerhalb dieses Blocks wird einerseits der erweiterte Zustand x, gebildet und andererseits 
die Stellgröße u, berechnet. 
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Abbildung 6.4: Übersicht über den Gesamtalgorithmus des ADP-basierten Geschwindigkeitsreglers. Die gezeigte 
Gesamtstruktur entspricht dem Block ADP-Regler in Abbildung 6.2. Der Block Regelung übergibt 
mit der Abtastzeit At die Stellgröße u, an das reale System. Die Datenaufbereitung übernimmt 
Datenvorverarbeitungsschritte, um ADP-kompatible Datentupel zu erzeugen und zu speichern. Im 
Block Training werden diese Datentupel schließlich zum Critic- und Actor-Training genutzt. Dieser 
Trainingsschritt findet mit der Updaterate Al statt. 


Für die Zustandserweiterung werden zunächst mithilfe eines Ringspeichers Stellgrößen ge- 
speichert, um den Vektor Uk—hpr:k—1 vergangener Stellgrößen zu erhalten. Weiterhin wird der 
Referenzparameter zę, wie in (6.8) beschrieben, berechnet. Der erweiterte Zustand x, wird 
schließlich aus der gemessenen Geschwindigkeit yx, den Parametern z% und den vergangenen 
Stellgrößen Ux—ppg:k—1 gebildet (vgl. Abbildung 6.3). 


Basierend auf dem aktuellen Reglergewicht 6!) und dem erweiterten Zustand £; wird an- 
schließend mithilfe des Regelgesetzes jug. (&,) die Stellgröße berechnet. Dabei ist ugu (Zz) 
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durch eine lineare Abhängigkeit des Regelfehlers y,(z%) — Yk = Za+ı,k — Yk und, im Fall 
d > 0, die übrigen Solltrajektorienparameter 2q,,,..., 21,4 gegeben: 


Hon (žk) = [(za41,k — Yk) Zar + z| ol. (6.12) 


Während des Trainingsvorgangs wird zudem ein Anregungssignal zu ug (&,) addiert, um 
die Stellgröße ux zu erhalten. Dieses wird in Abschnitt 6.1.3.1 konkretisiert. Letztlich wird der 
erweiterte Zustand x; sowie die Stellgröße u, an den Block Datenaufbereitung übergeben. 


Datenaufbereitung 

Der Block Datenaufbereitung übernimmt Datenvorverarbeitungsschritte, um ADP-kompatible 
Datentupel zu erzeugen, zu speichern, und dem nachfolgenden Training zur Verfügung zu 
stellen. Insbesondere werden hier auch die Referenzparameter zą modifiziert. Diese Modifi- 
kation verfolgt zwei Ziele. Einerseits werden die Referenzparameter angeregt, andererseits 


wird dafür gesorgt, dass die beim Training verwendeten Datentupel ee t! ; RË xX a } 
ADP-kompatibel sind. 


Ersteres wird durch Addition von Zufallszahlen zu den Polynomkoeffizienten z% erreicht. 
Dieses Vorgehen ist aufgrund der Off-Policy-Charakteristik zulässig (vgl. Anhang D.2). Im 
Folgenden wird hierzu eine mittelwertfreie Gaußverteilung mit Standardabweichung 1 ver- 
wendet. In Abbildung 6.4 kennzeichnet %%, dass dieses zusätzliche Anregungssignal zum 
Referenzparameter z% addiert wird, der Teil des erweiterten Zustands &; ist. 


Ein Pufferspeicher verzögert den erweiterten Zustand &}, sodass ©; zur Verfügung steht. 
Die Größe Z? stellt schließlich ADP-Kompatibilität sicher. %9? entsteht, indem in x der 
Solltrajektorienparameter z;, durch z® , ersetzt wird, also durch eine um einen Zeitschritt ver- 
schobene Version des durch 2;._ı beschriebenen Solltrajektorienverlaufs aus £7, , (vgl. (6.3), 
(6.5) und Bemerkung 3.2). Mithilfe der vergangenen Stellgröße u,_1 und #%_, werden zudem 
die Einschrittkosten rg—ı berechnet. Das so entstandene Tupel {#7,_], Ur 1,7% 1, ZX } wird 


in einem Ringspeicher gespeichert, der M Datentupel fasst. Sobald dieser Ringspeicher gefüllt 
ist, können Batches {xf ul, Re, xl k die aus Mg Datentupeln bestehen, aus diesem 


Speicher gezogen und dem nachfolgenden Trainingsalgorithmus übergeben werden. 


Training 

In jedem Trainingsschritt wird zunächst das aktuelle Regelgesetz uou (vgl. (6.12)) für jedes 
zin X y ausgewertet, um ul 
zu {xi N ; RN xX m U. m vervollständigt. Dieser Batch! wird dann genutzt, um das 


Critic-Gewicht w basierend auf dem quadrierten TD-Fehler (D.2) anzupassen. Hierbei wird 


zu berechnen. Damit wird der Trainingsbatch schließlich 


124 Dieses Vorgehen ist unter dem Begriff Experience Replay bekannt (vgl. Anhang D.2). 
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der Levenberg-Marquardt-Algorithmus [Mor78] mit Norm-Clipping [PMB13] verwendet'”. 


Anschließend wird das geschätzte Critic-Gewicht wl!) genutzt, um mithilfe des Deterministic 
Policy Gradients [SLH* 14] (vgl. Anhang D.2) die Reglergewichte 6!) zu adaptieren!?, An- 
zumerken sei an dieser Stelle, dass der Trainingsschritt nicht direkt von externen Signalen 
abhängt. Die Updaterate Al, mit der das Training durchgeführt wird, kann somit unabhängig 
von der Abtastzeit At, mit der die Messung der Geschwindigkeit yr erfolgt und Stellgrößen 
ur auf das System appliziert werden, gewählt sein. Eine geeignete Wahl von Al hängt hierbei 
insbesondere von der verfügbaren Rechenkapazität ab. 


6.1.3 ADP-Solltrajektorienfolgeregelung im Realfahrzeug 


In diesem Abschnitt wird gezeigt, dass der vorgestellte ADP-Sollgeschwindigkeitsfolgereg- 
ler online in einem Realfahrzeug lernt, vorgegebenen Geschwindigkeitsprofilen zu folgen. 
Zunächst wird der experimentelle Aufbau beschrieben. Anschließend wird der Online-Trai- 
ningsvorgang im Realfahrzeug betrachtet und anhand von Validierungsfahrten ausgewertet. 
Dabei wird der vorgestellte ADP-Regler, der den Sollgeschwindigkeitsverlauf durch ein Po- 
lynom ersten Grades approximiert, mit einem ADP-Regler verglichen, der eine konstante 
Sollgeschwindigkeit zugrunde legt. 


6.1.3.1 Online-Training im Realfahrzeug 


Für das Online-Training wird ein auf einem BMW 740Li basierendes Versuchsfahrzeug mit 
Verbrennungsmotor und Automatikgetriebe genutzt (siehe Abbildung 6.1). Dieses Fahrzeug 
ist mit einer dSpace Autobox'?’ mit DS1007 Prozessorboard!”® ausgestattet, die über das fahr- 
zeuginterne Bussystem Zugriff auf das Bremssystem, den Antriebsstrang und weitere Regler 
hat. Diese Plattform kann mehrere Aufgaben in Echtzeit ausführen und stellt unter anderem 
die Schnittstelle zu dem vorgestellten ADP-basierten Geschwindigkeitsregler dar. So werden 
Geschwindigkeitsmessungen yx zur Verfügung gestellt, der lokale Sollgeschwindigkeitsver- 
lauf Yr soll,k, Yr,soll,k+1> +: » Yr,soll,k+n,—1 verarbeitet und die resultierende Stellgröße u, der 


125 Diese Wahl des Optimierungsalgorithmus hat sich als geeignet erwiesen, auch, da vergleichsweise wenige 
Hyperparameter angepasst werden müssen [PRH19]. Der Levenberg-Marquardt-Algorithmus stellt eine Trust- 
Region-Optimierungsmethode dar, die neben derselben Approximation der Hessematrix wie bei der Gauß- 
Newton-Methode einen zusätzlichen Regularisierungsterm nutzt [NW06, S. 258]. Der Regularisierungsterm 
wird zu Anm] gesetzt und mittels einfacher Schrittweitensteuerung angepasst. Bei einer Verbesserung des 
Optimierungsziels wird ALım = A gesetzt, andernfalls Atm = 5Arm. Initial gilt Am = 1. Die Verwendung von 
Norm Clipping, d.h. die Normierung des Gradienten, sobald dessen Norm einen nutzerdefinierten Schwellwert 
überschreitet, stellt insbesondere eine Begrenzung der Lernrate des Actor-Gewichts sicher. Da die Adaption 
des Actor-Gewichts auf einer Schätzung des Critic-Gewichts basiert, sollte die Anpassung des Actor-Gewichts 
langsamer als die Anpassung des Critic-Gewichts stattfinden. 
Genau wie bei der Anpassung des Critic-Gewichts wird auch hier der Levenberg-Marquardt-Algorithmus [Mor78] 
mit Norm-Clipping [PMB13] verwendet. 
127 Datenblatt verfügbar unter: https: //www.dspace.com/shared/data/pdf/2019/dSPACE_AutoBox_ 
PHS_Catalog2019.pdf (Zugriff am 19.10.2021). 
128 Datenblatt verfügbar unter: https://www.dspace.com/shared/data/pdf/2019/dSPACE_DS1007_ 
Catalog2019.pdf (Zugriff am 19.10.2021). 
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unterlagerten Regelung übergeben. Die Datenaufzeichnung erfolgt mittels eines Ethernet- 
Anschlusses durch einen PC. 


Die verwendeten Hyperparameter sind Tabelle D.1 in Anhang D.3 zu entnehmen. Die Wahl 
einer kleinen maximalen Norm für den Adaptionsschritt des Actor-Gewichts 6" führt zwar 
zu einer vergleichsweise langsamen Adaption, soll jedoch Rauschen im Adaptionsprozess 
des Actors reduzieren. Dies ist darin begründet, dass die Adaption von gl! gemäß (D.5) 
von der erfolgreichen Schätzung des Critic-Gewichts w abhängt. Aufgrund der begrenzten 
Rechenkapazität der verwendeten Hardware wird zudem eine Updaterate des Trainingsvor- 
gangs von Al = 0,6s gewählt (vgl. Tabelle D.1), während die Abtastzeit des Reglers mit 
At = 0,02s der Abtastzeit der Systemausgangsgröße yx entspricht und somit die gegebenen 
Echtzeitanforderungen erfüllt. 


In beiden Trainingsdurchgängen (Ordnung d = 1 bzw. d = 0 für die Approximation des 
Sollgeschwindigkeitsprofils) wird das Fahrzeug im ersten Gang betrieben. Die Longitudinaldy- 
namik, die aus Antriebsstrang, Bremssystem und unterlagerter Regelung besteht, dämpft 
hohe Frequenzen von u; und weist daher Tiefpassverhalten auf. Der ADP-Mechanismus, 
der zum Training des Geschwindigkeitsreglers genutzt wird, erfordert jedoch, wie alle ad- 
aptiven Methoden, eine ausreichende Systemanregung, um eine Verbesserung der Critic- 
und Actor-Gewichte zu erzielen. Da mittelwertfreies, hochfrequentes Rauschen aufgrund 
des Tiefpassverhaltens, ähnlich wie im Beispiel in Abbildung 5.9 gezeigt, kaum Einfluss auf 
das System hätte, ist es als Anregungssignal für die Stellgröße ungeeignet. Die Ergebnisse 
aus Kapitel 5 motivieren daher die Verwendung eines Anregungssignals, das zu einer deutli- 
cheren Beeinflussung des Systems führt. Im konkreten Fall des vorliegenden ADP-basierten 
Geschwindigkeitsreglers hat sich die Addition eines Zufallssignals zum Reglerausgang, der 
aus einem initial gegebenen, suboptimalen Regler resultiert, bewährt. Dieses Zufallssignal 
wird dabei alle 2s zufällig aus einer Gleichverteilung im Intervall [—1 ms~?, 1 ms~?] gezo- 
gen. Während des Trainingsvorgangs wird die Geschwindigkeit zwischen ca. 6kmh! und 
30 km h~? variiert. Ein beispielhafter Ausschnitt der Geschwindigkeit yx und der Stellgröße 
ux während des Trainingsvorgangs ist Abbildung 6.5 zu entnehmen. 


Um in den Trainingstupeln [x B, a ; R! l „X u m auch eine Anregung der Referenztra- 


jektorienparameter z% zu erreichen, werden, wie in Abschnitt 6.1.2.3 beschrieben, verrauschte 
Parameter z,_1 verwendet. Die Verteilung der während des Trainingsvorgangs genutzten 
verrauschten Referenzparameter 2;_ı, aus denen mithilfe von D(1) die ADP-kompatiblen 
a) 129 

|S 
k 


Parameter z}; erzeugt werden, ist für d = 1 in Abbildung 6.6 gezeig 


Abbildung 6.7 zeigt den Verlauf der Reglergewichte 0" für die beiden Durchgänge mit linearer 
Referenzapproximation (Ordnung d = 1) und konstanter Referenzapproximation (Ordnung 
d = 0) während des Trainingsvorgangs. Die Verstärkung, die den konstanten Anteil der 
Sollgeschwindigkeitsapproximation beschreibt, verhält sich dabei für beide Fälle ähnlich. 
Nach etwa 1300s verbleiben die Reglerparameter in einem kleinen Intervall. 


129 Für den Fall d = 0 entfällt der durch zı gegebene lineare Anteil. 
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Abbildung 6.5: Beispielhafter Ausschnitt der Geschwindigkeit y;, sowie der Stellgröße up während des Trainings- 
vorgangs. Im Sinne der Systemanregung wird alle 2s ein Zufallswert aus einer Gleichverteilung auf 
dem Intervall [-1ms~!, 1 ms~!] gezogen, der zum Reglerausgang addiert wird. Die Zeitpunkte, 
zu denen dieser Zufallswert gezogen wird, sind durch vertikale, gepunktete Linien gekennzeichnet. 


6.1.3.2 Auswertung der gelernten Regler im Realfahrzeug 


Abschließend sollen die beiden gelernten Regler anhand einer Validierungsfahrt verglichen 
werden. Dazu werden die Reglergewichte 0! am Ende der beiden Trainingsdurchgänge 
konstant gehalten. Zudem wird das Anregungssignal entfernt und eine Auswertungsfahrt 


durchgeführt. 


In Abbildung 6.8 ist ersichtlich, dass mit beiden Reglern die gewünschte Sollgeschwindigkeit 
erreicht wird. Aufgrund des zu minimierenden Gütefunktionals (6.2), das unter anderem den 
Stellaufwand bestraft!?®, sowie der begrenzten Vorausschaufähigkeit der Regler, wird dem 
vorgegebenen Geschwindigkeitsprofil zwar nicht exakt gefolgt, aufgrund der prädiktiven 
Eigenschaften des Reglers mit linearer Sollgeschwindigkeitsapproximation ist für d = 1 der 
zeitliche Versatz von y;, bezüglich der Sollgeschwindigkeit im Vergleich zum Regler mit d = 0 
jedoch merklich reduziert. 


130 Hierdurch werden insbesondere im Sinne des Fahrkomforts hohe Beschleunigungen vermieden (vgl. [DLL18]). 
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Abbildung 6.6: Verteilung der während des Trainingsvorgangs verwendeten verrauschten Referenzparameter Zķ—1. 
Dabei stellt z2 die Sollgeschwindigkeit (konstanter Anteil in ms!) und zı die Steigung der 
Sollgeschwindigkeit (linearer Anteil in m s7?) dar. 


—— konstanter Anteil Ordnung 1 ---- linearer Anteil Ordnung 1 
--- konstanter Anteil Ordnung 0 
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Abbildung 6.7: Reglerparameter 6!" während des Trainingsvorgangs. Während der ersten 100 s wird zunächst der 
Speicher der Größe M mit Datentupeln gefüllt. 
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Abbildung 6.8: Sollgeschwindigkeitsverlauf und gemessene Geschwindigkeit y, während der Auswertungsfahrt 
nach dem Training. Als beispielhaftes Sollgeschwindigkeitsprofil wurde ein um 17,5kmh! ver- 
schobener Sinusverlauf mit einer Amplitude von 7,5 km ht und einer Periodendauer von 10s, 
der an den Extrempunkten für jeweils 5s konstant gehalten wird, gewählt. Die Ergebnisse sind über 
20 Durchgänge gemittelt. Der Regler, der eine lineare Approximation des Sollgeschwindigkeitsver- 
laufs berücksichtigt (d = 1), weist dabei eine geringere Abweichung vom Sollverlauf auf, als der 
Vergleichsregler mit konstanter Geschwindigkeit (d = 0). 


Die aktuelle Sollgeschwindigkeitsabweichung, die durch den konstanten Anteil des Polynoms 
nullten Grades (d = 0) bzw. des Polynoms ersten Grades (d = 1) berücksichtigt wird, hat 
bei beiden Reglern einen nahezu identischen Einfluss. Dies ist den konstanten Anteilen der 
Solltrajektorienparameter zę in Abbildung 6.9 sowie den konstanten Anteilen der Regler- 
parameter o!l in Abbildung 6.7 zu entnehmen. Der Regler mit linearer Approximation des 
Sollgeschwindigkeitsprofils kann jedoch vorausschauender handeln, da der lineare Anteil 
der Referenzapproximation als Vorsteuerterm agiert (vgl. (6.12) und [Lun20a, S. 11]). Diese 
zusätzliche Stellgröße hängt dabei direkt mit der aktuellen Steigung der Sollgeschwindigkeit 
zusammen, d.h. der aktuellen Sollbeschleunigung, die dem linearen Anteil des Solltrajektori- 
enparameters Zz% in Abbildung 6.9 entspricht. Aufgrund dieses zusätzlichen Vorsteuerterms 
sendet der Regler, der eine lineare Approximation des Sollverlaufs nutzt, die durch u; ge- 
gebenen Beschleunigungssignale früher als der Vergleichsregler. Dies ist in Abbildung 6.10 
gezeigt. 


Abschließend werden noch die mit den beiden Reglern während der Auswertungsfahrt re- 
sultierenden Kosten im Sinne des Gütefunktionals (6.2) betrachtet. Da dieses Gütemaß im 
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Abbildung 6.9: Solltrajektorienparameter zę während der Auswertungsfahrt. Der konstante Anteil repräsentiert 
die aktuelle Sollgeschwindigkeit, der lineare Anteil die aktuelle Sollbeschleunigung. 
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Abbildung 6.10: Stellgröße ug während des Auswertungsmanövers (gemittelt über 20 Durchgänge). Die Amplituden 
der Stellgröße sind für die betrachteten Fälle vergleichbar, jedoch reagiert der Regler mit d = 1 
früher und handelt vorausschauender. 


190 6 Reale Anwendung ADP-basierter Solltrajektorienfolgeregler 


Realversuch aufgrund des unendlichen Zeithorizonts in (6.2) nicht berechnet werden kann, 
wird als Näherung 


100 
V¥ (yp, 24) © I Y°r (Ur te( 2k?) 8 E) (6.13) 
K=0 


genutzt. Diese Näherung, die aufgrund der verwendeten Diskontierung y = 0,95 (vgl. Tabel- 
le D.1) zulässig ist, da Kosten in ferner Zukunft nur wenig zur Value Function V” beitragen, 
gibt einen Eindruck über die Güte der beiden Regler. Wie in Abbildung 6.11 ersichtlich ist, 
reduziert der vorgestellte Regler, der eine lineare Approximation des Sollgeschwindigkeits- 
verlaufs verwendet, die Kosten (6.13) deutlich gegenüber dem Vergleichsregler. Die besseren 
Vorausschaueigenschaften und der daraus resultierende verringerte zeitliche Versatz führen 
zu geringeren Regelabweichungen und damit letztlich zu geringeren Kosten. 


—— approximierte Value Function Ordnung 1 


—— approximierte Value Function Ordnung 0 
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Abbildung 6.11: Approximierte Value Function während des Auswertungsmanövers. Der Regler, der eine lineare 
Approximation des Sollverlaufs verwendet (d = 1), führt dabei zu deutlich geringeren Kosten als 
der Vergleichsregler. 


6.1.4 Diskussion 


In diesem Abschnitt wurde, basierend auf der in Abschnitt 3.2 vorgestellten ADP-kompatiblen 
Referenztrajektoriendarstellung, ein lernender Geschwindigkeitsregler für ein Realfahrzeug 
vorgestellt, der online, d. h. während der Trainingsfahrt, die Schätzparameter der Q-Function 
und die Reglerparameter adaptiert. Dieser Ansatz zeichnet sich durch die explizite Einbezie- 
hung der lokalen linearen Approximation des Sollgeschwindigkeitsverlaufs aus. Die Konsistenz 
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der Trainingsdaten mit der Bellman-Gleichung wird hierbei durch die Definition eines er- 
weiterten Zustands x; sowie der virtuellen Verschiebung der Solltrajektorienparameter z;, 
erreicht. 


Das erfolgreiche Online-Training in einem Realfahrzeug demonstriert die grundsätzliche 
Anwendbarkeit der in dieser Arbeit entwickelten, neuartigen, ADP-basierten Solltrajektori- 
enregler in realen regelungstechnischen Problemstellungen und liefert somit einen anwen- 
dungsorientierten Beitrag zu Forschungsfrage 1 aus Abschnitt 2.4.1. Insbesondere offenbart 
die explizite Einbeziehung des approximierten Solltrajektorienverlaufs in die Value Function 
Vorteile. So führt die zusätzliche Verwendung der Änderungsrate der aktuellen Sollgeschwin- 
digkeit zu besseren Vorausschaueigenschaften und signifikant reduzierten Kosten. 


Eine effizientere Implementierung der verwendeten Algorithmen sowie ein auf einer exter- 
nen Recheneinheit durchgeführter Trainingsprozess können künftig die Updaterate Al des 
Trainings wesentlich reduzieren und ein schnelleres Training ermöglichen. Ein schnellerer 
Trainingsvorgang erleichtert schließlich mögliche Erweiterungen, zum Beispiel das Training 
in anderen Geschwindigkeitsbereichen und Gängen oder die Einbeziehung zusätzlicher Daten, 
wie beispielsweise das aktuelle Straßenprofil. 


Im nächsten Abschnitt wird die in dieser Arbeit vorgestellte ADP-kompatible Referenztrajekto- 
riendarstellung auf ein zweites reales regelungstechnisches Problem angewandt und ein daraus 
resultierender modellfreier ADP-Regler mit einem modellbasierten Regler verglichen. 


6.2 Modellfreier Trajektorienfolgeregler für ein reales 
Ball-auf-Platte-System 


In diesem Abschnitt wird die in Kapitel 3 vorgestellte ADP-kompatible parametrierte Refe- 
renztrajektoriendarstellung verwendet, um einen Solltrajektorienfolgeregler für ein reales 
Ball-auf-Platte-System, das in Abbildung 6.12 gezeigt ist, zu trainieren!?!. Obwohl Ball-auf- 
Platte-Systeme weitverbreitete Beispielsysteme in der Regelungstechnik darstellen, sind die 
in der Literatur vorhandenen Regler hierfür entweder vollständig modellbasiert [KIB* 19], 
[ABB*02], [BFGB12], [DHS17], [KCS03] oder modellbasiert mit zusätzlicher Fuzzy-Regelung 
[MSV08]. Im Gegensatz zu bestehenden Reglern benötigt der im Folgenden verwendete Re- 
gelungsansatz kein exaktes Modell des Ball-auf-Platte-Systems, da Messdaten des realen 
Systems dazu verwendet werden, einen optimierungsbasierten Solltrajektorienfolgeregler zu 
trainieren. Dieses Vorgehen vermeidet daher eine Modellbildung, die beispielsweise durch 
konstruktive Eigenschaften, wie einer vertikal versetzten Drehachse der Platte, erschwert wird 
(vgl. [KIB* 19]). Ebenso wird eine anschließende manuelle Feinjustage nicht mehr benötigt. 
Somit stellt die vorliegende Arbeit die erste Anwendung eines modellfreien ADP-basierten 
Solltrajektorienfolgeregelungsansatzes auf ein reales Ball-auf-Platte-System dar. 


131 Ergebnisse dieses Abschnitts wurden im Rahmen eines Konferenzbeitrags veröffentlicht [KKIH21]. 
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Abbildung 6.12: Ball-auf-Platte-System des Instituts für Regelungs- und Steuerungssysteme am Karlsruher Institut 


für Technologie, das für die modellfreie, ADP-basierte Solltrajektorienfolgeregelung verwendet 
wird. 


Weiterhin erlauben existierende Regler für Ball-auf-Platte-Systeme bisher entweder überhaupt 
keine Solltrajektorienvorgabe der Ballposition [KIB* 19], [ABB*02], [BFGB12] oder betrach- 
ten nur die aktuelle Abweichung der Ballposition von einer stationären Sollpositionsvorgabe 
[DHS17], [KCS03], [MSV08]. Letzteres führt jedoch zu einer merklichen Zeitverzögerung im 
Vergleich zum gewünschten Trajektorienverlauf. Demgegenüber wird in der vorliegenden 
Arbeit eine ADP-kompatible lokale Approximation des Solltrajektorienverlaufs der Ballpo- 
sition explizit in den Regler integriert. Diese flexible, aber dennoch kompakte Darstellung 
ermöglicht prädiktives Verhalten des resultierenden Reglers. 


Die Nutzung eines Off-Policy-Ansatzes (vgl. Abschnitt 2.1.4.4) erlaubt zudem die Wiederver- 
wendung der Messdaten und somit eine dateneffiziente Implementierung. Die Verwendung 
einer On-Policy-Methode würde nicht nur dazu führen, dass zwingend benötigtes Anregungs- 
rauschen (vgl. Kapitel 5) zu einem Offset in der Schätzung der Critic-Gewichte führen könnte, 
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sondern insbesondere nach jedem Policy-Improvement-Schritt komplett neue Messdaten vom 
realen System aufgezeichnet werden müssten. Der vorgestellte ADP-basierte Solltrajektori- 
enfolgeregler mit lokaler Approximation des Sollpositionsverlaufs wird schließlich sowohl 
mit einem ADP-basierten Regler mit stationärer Sollvorgabe als auch mit modellbasierten 
Reglern, die ebenfalls eine lokale Approximation des Sollpositionsverlaufs bzw. eine konstante 
Sollvorgabe verwenden, verglichen. 


6.2.1 Ball-auf-Platte-System und Problembeschreibung 


Nachfolgend wird zunächst das verwendete reale Ball-auf-Platte-System, das ohne genaue 
Kenntnis eines Systemmodells mithilfe eines ADP-Solltrajektorienfolgeregelungsansatzes 
geregelt werden soll, vorgestellt und anschließend die Problemstellung definiert. 


6.2.1.1 Ball-auf-Platte-System 


Das in dieser Arbeit verwendete und in Abbildung 6.12 gezeigte Ball-auf-Platte-System besitzt 
eine quadratische Platte mit einer Seitenlänge von 1 m und einer Masse von 16,3 kg. Die Platte 
kann in zwei zueinander orthogonalen Richtungen, die im Folgenden durch X und Y gekenn- 
zeichnet sind, geneigt werden. Für beide Plattendimensionen steht hierfür ein eigener Motor 
zur Verfügung. Die Plattenwinkel (aX], «{Y]) und zugehörigen Winkelgeschwindigkeiten 
(wl*], wll) werden alle 10 ms gemessen. Ein Ball mit einer Masse von 0,042 kg und einem 
Radius von 0,02 m befindet sich auf der Platte. Seine Position in einem plattenfesten Koordi- 
natensystem wird kamerabasiert erfasst, sodass alle At = 40 ms die Ballposition (s[X], sl!) 
sowie die Ballgeschwindigkeit (v!*!, vl!) zur Verfügung stehen. Für ı € D = {X, Y } werden 
die Systemzustände der jeweiligen Plattendimension zu 


L L l L L 4 


zusammengefasst. Die Eingangsgrößen des Systems sind durch die Motorströme me =/ u 
gegeben. Die Systemarchitektur ist in Abbildung 6.13 skizziert. Eine detailliertere Beschreibung 
der Systemarchitektur und der verwendeten Hardware ist in [KIB* 19], [Kil20] und [Bla18] zu 
finden’. 


Da die beiden Plattendimensionen X und Y sich nur geringfügig gegenseitig beeinflussen, 
ist eine getrennte Regelung in beiden Dimensionen üblich [ABB* 02], [BFGB12], [KCS03], 
[KIB* 19]. Die Dynamik des Ball-auf-Platte-Systems ist zwar in X- und Y-Richtung unter- 
schiedlich, jedoch werden die Regler für beide Plattendimensionen grundsätzlich mit demsel- 
ben Verfahren trainiert. Daher wird auf den Index ı im Folgenden aus Gründen der Lesbarkeit 
zumeist verzichtet. 


132 Im Gegensatz zu [KIB* 19] und [Bla18] wird in der vorliegenden Arbeit eine schwerere Platte sowie ein anderer 
Ball verwendet. Dies wurde insbesondere bei der Auslegung des modellbasierten Vergleichsreglers berücksichtigt. 
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Ball-auf-Platte-Hardware 


mechanische CAN QEP Inkremental- 
Drehregler geber | 
X/IY XY 


Motor- 
GUI CAN Mikro- CAN Se Motoren Plate 
(Martras) controller XY 
online XIY 
Skripte 
Honea < KO 
offline USB 


Abbildung 6.13: Architektur des Ball-auf-Platte-Systems. Abbildung nach [Kil20]. 


6.2.1.2 Problemstellung 


Betrachtet werde ein zeitdiskretes, steuerbares System mit der Dynamik 
Lk+1 = F (£k, Ux), (6.15) 


wobei k € N>o den diskreten Zeitschritt indiziert, x, € R” dem Systemzustand entspricht 
(vgl. (6.14)), ur € RP die Stellgröße Iy darstellt, und F unbekannt ist. Aus Abschnitt 6.2.1.1 
folgt für jede Dimension in D die Systemordnung n = 4 sowie eine Stellgrößenanzahl von 
p = 1. In jedem Zeitschritt k sei eine lokale Approximation des Solltrajektorienverlaufs der 
Ballposition durch 


size”) = 5.(2%,K) = ZL p(k) (6.16) 


mit x € N>o gegeben, wobei sy (22) die Sollposition im Zeitschritt k + « bezeichnet. Der 


Vektor zx € R@+! parametriert den Sollverlaufund p(x) bezeichnet gegebene Basisfunktionen 
(vgl. (3.15)). 


Die folgende Problemstellung formalisiert das Ziel, dass die Ballposition einem vorgegebenen 
Verlauf folgen soll, während für die Werte der übrigen Systemzustände bei entsprechender Pa- 
rametrierung eine möglichst geringe Abweichung von null gefordert werden kann. Außerdem 
soll der Stellaufwand gering gehalten werden. 
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Problem 6.1 


Gegeben seien Basisfunktionen p(K) zur ADP-kompatiblen Solltrajektorienapproximation 
nach Definition 3.1 sowie M Messtupel { £p, Uk, £&«+1b, K = k,...,k + M — 1. Die 
Systemdynamik F (£x, ux) sei unbekannt. Gesucht ist das Regelgesetz u* (£k, Zg), sodass 
Var, Zk die durch uy, = u* (xx, zk) gegebene Stellgröße das Gütefunktional 


N 
%1,k+k — Sr\ Zk 


Ti, k+rk — Sy (ea 


oo 
=P || ee | g| Terte | ud, Renae 
K=0 T3, k+r T3, k+r 


T4, k+rK T4,k4 


=: > er mu URS: es ) 


K=0 


(6.17) 
minimiert. Hierbei sei y € (0, 1] ein Diskontierungsfaktor, Q positiv semidefinit und R 
positiv definit. 


6.2.2 ADP-Solltrajektorienfolgeregler fiir ein Ball-auf-Platte-System 


Für die optimale Q-Function 


Q* (£k, Zk Uk) = r(x, s.(Zx), Uk) +r 5 yfr (sity ee) u" (zur, a) 
= (6.18) 
= T(£k, nea ae ug) T yQ* (wes, 2), je (wes, =) 
mit 2) nach Definition 3.2 folgt gemäß Lemma 3.1, dass 
uy, = arg min Q* (£k, Zk, Ur) (6.19) 


Uk 


eine Lösung für Problem 6.1 darstellt. Da die optimale Q-Function Q* (£k, Zk, Uz) a priori 
unbekannt ist, sei Q* (£k, Zk, Uk) = W'O(ap, Zk, ur), mit dem zu schätzenden Gewicht 
w € R” und ¢(-) € R” (vgl. (3.24)). Mithilfe einer Policy Iteration (vgl. Abschnitt 2.1.4.1) 


wird in der l-ten Iteration im Policy-Evaluation-Schritt die geschätzte Q-Function 
Han, zu, ur) = a NT bar, zu, ur), (6.20) 


welche die Gesamtkosten des aktuellen Regelgesetzes ji} beschreibt, gesucht. Hierzu wird 


wit adaptiert, um nach Möglichkeit die Gleichung 


QU (£p, Zk, ur) = r (Ek, 8:(Zk), ur) + Query (wes, z®, aM (wean, =) (6.21) 


zu erfüllen. Der anschließende Policy-Improvement-Schritt ist dann durch 
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a [E+] 


Al (xp, zg) = arg min QUH (ay, zk, ux) (6.22) 


ur 
gegeben. In den nächsten Abschnitten wird die verwendete lokale Solltrajektorienapproxima- 
tion, die Approximation der Q-Function und der Trainingsalgorithmus beschrieben. 


6.2.2.1 Quadratische lokale Referenzapproximation 


Im Folgenden werde der Solltrajektorienverlauf der Ballposition aus lokaler Perspektive zum 
Zeitschritt k durch ein quadratisches Polynom (d = 2) 


Sy (2) =z) p(x) = Dk,o(KAt)? + prakAt + Dro (6.23) 


mit p(k) = [(KAt)? KAt 1]" und dem Parametervektor zę ‘= [Pr.2 Pri pro] | ap- 
proximiert. Die Abtastzeit ist durch At gegeben. Die Verschiebungsmatrix D(x), die benötigt 
(s) 


wird, um den propagierten Parameter z,” nach Definition 3.2 aus 2, zu berechnen, ergibt 
sich aus 


= zi p(k + j) 
((« + j)At) 
=2Z, | (K+ j)At 
1 


1 2kAt (KAt)? 
= 2) jf 0% 1 «At | p(j) 
0 0 1 


K)T ; 
= z (j), (6.24) 


VK, j € N>o. Für einen beliebigen Verlauf der Sollposition 5;,so1,x ist in jedem Zeitschritt k ein 
Parametervektor zę gesucht, sodass sy (an), k € N>o, eine Approximation von Sr soll,k+« 
darstellt. Während der Laufzeit wird dabei angenommen, dass der Sollpositionsverlauf über 
einen Vorausschauhorizont von ny, € No Zeitschritten vorliegt. In jedem Zeitschritt k wird 
z, dann mittels gewichteter Least-Squares-Regression geschätzt. Analog zu (3.71) und (3.72) 


folgt 


—1 
= = Sr,soll,k:k+ny1—1W pPo m -ı (Pl.n.-ıWrPo.n.-ı) (6.25) 
mit 
Sr soll,k:k+np—1 ‘= [Sr,soll,k Sr sol,k+1 ++ Sr soll, k+nn—1] ’ (6.26) 
` ` —1 
WwW, a=, diag(1, B,.:.,8” ), B< 1, (6.27) 


Pom-ı = [pl0) Pl) ... Plm-1)]". (6.28) 
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6.2.2.2 Approximation der Q-Function und Policy Iteration 


Die Approximation der Q-Function nach (6.20) wird zu 


Hol p pi 
Af] _ | Uk hix haw hy hu Uk 
Geter ja] [ai ai all all |a 
I l l l 
tJ [al all all alt] La 
= y Hy, = wT bar, zu, ur) (6.29) 


(vgl. (3.46)) mit HU = HT gewählt. Somit gilt œ (xp, zk, ur) = Jy Qr Y, und Ô ent- 
spricht den nicht-redundanten Elementen der symmetrischen Matrix H 4133 Für jede Dimen- 
sion ı € D sind im Fall einer lokalen Referenzapproximation nach Abschnitt 6.2.2.1 mit d= 2 
somit h = 45 Gewichte zu lernen. Die Wahl einer quadratischen Q-Function ist durch die 
in [KIB* 19] veröffentlichte Regelung des betrachteten Ball-auf-Platte-Systems mithilfe eines 
modellbasierten linear-quadratischen Optimalregelungsansatzes motiviert. Nach Lemma 3.2 
weist die Q-Function eines LQ-Problems eine quadratische Struktur auf. 


Im Policy-Evaluation-Schritt zur Erfüllung von (6.21) wird der Least-Squares-Temporal-Diffe- 
rence-Q-Learning-Ansatz [LP03] mit der in [LP03, Abschnitt 5.2] beschriebenen Fixpunktbe- 


dingung verwendet!**. Somit werden M Tupel { ax, Uk; Ertl, Zks ze genutzt, um 


a (8 (8 - at) Sr (6.30) 


zu bestimmen. Dabei gilt 
T oiT 
=|: or! — i | (6.30b) 


T +(t 
M Pu TM 


133 Elemente von wl, die zu Nebendiagonalelementen von H id gehören, werden dabei jeweils mit dem Faktor 2 
multipliziert, um die redundanten Elemente der symmetrischen Matrix H N zu berücksichtigen. 

Der Bellman-Operator BQ (2x, Zk, Uk) = r (Tk, sı(Zr), ur) + YQ (we, z0, mu (wen x) stellt 
nach [BBdE10, S. 24] eine Kontraktion mit dem Kontraktionsfaktor ~y in der Loo-Norm dar, deren Fixpunkt durch 
die korrekte Q-Function zum betrachteten Regelgesetz pal (-) gegeben ist. Da die Anwendung des Bellman- 
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Operators und die Forderung al + BQU+ jedoch zu einer geschätzten Q-Function führen kann, die 
möglicherweise nicht mehr in dem durch &(-) aufgespannten Raum liegt, wird eine orthogonale Projektion 


mit der Projektionsmatrix ® (818) -1T [Mey00, S. 430] mit ® nach (6.30b) vorgenommen. Dies führt 


zur Forderung QU+1] +8 (18) -~i gTgÂlN+] (vgl. [LP03, S. 1117]). Eine ausführliche Beschreibung ist 
in [LP03], [BBdE10] und [Kil20, Abschnitt 2.3.6] zu finden. Für den Fall, dass die Q-Function exakt durch die 
gewählten Funktionsapproximatoren abgebildet werden kann, führt die verwendete Fixpunktforderung zur selben 
Lösung wie die in Abschnitt 3.2.3 beschriebene Methode (vgl. [LP03, Abschnitt 5.3]). Da die Fixpunktforderung 
nach Aussage von [LP03, Abschnitt 5.3] jedoch in Experimenten häufig zu besseren Regelgesetzen führt und für 
die Anwendung empfohlen wird, findet diese Methode im Folgenden Verwendung. 
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mit 
by = O (£k, Zk, Uk), k=1,...,M, (6.30c) 
Th t= T(E, Sr(Zk) Ur) (6.30d) 

und 
pi” = $ (wes, Bane (wes, zs (6.30e) 


Aufgrund der Off-Policy-Charakteristik können die Messdaten in jeder Iteration wiederver- 
wendet werden. Zudem erfordert die Minimierung in (6.22), dass 


aĝ! 


ur ur 


=2 (nit æn + hitz, + p+! + nit Tux) = 0 (6.31) 


gilt. Hieraus folgt für den Policy-Improvement-Schritt (6.22) der analytische Ausdruck 


=1 Lk 
A (a, zp) = - (RE) [al nur ale] Zk (6.32) 
ee | dl 
—Kl!ı+ı 
(vgl. Satz 3.2). Somit hängt der Motorstrom J, von £k, Zk und einer statischen Offsetkorrek- 
tur ab. 


Bemerkung 6.3 

Die Wahl von Q(-) in (6.29) erweitert die in Abschnitt 3.2.4 präsentierte Approximati- 
onsstruktur um einen konstanten Term in Yy. Hierdurch wird insbesondere auch die Dar- 
stellung eines statischen Offsetstroms ermöglicht. Ein solcher statischer Offsetstrom kann 
beispielsweise eine asymmetrische Masseverteilung der Platte kompensieren. Während 


dieser Offsetstrom in [KIB* 19] heuristisch ermittelt wurde, wird er in der vorliegenden 
Arbeit somit automatisiert gelernt. 


6.2.2.3 Trainingsablauf 


Der zur Adaption eingesetzte LSPI-Algorithmus [LP03] verwendet Trainingsdaten, um iterativ 
die geschätzte Q-Function und somit das Regelgesetz anzupassen. Die während des Trainings 
genutzten Datentupel bestehen aus zwei Teilen. Einerseits werden am realen System aufge- 
zeichnete Messdaten verwendet, andererseits werden ADP-kompatible Solltrajektoriendaten 
erzeugt. Diese Trainingsdaten werden anschließend vorverarbeitet und normiert, bevor eine 
Policy Iteration zum Training durchgeführt wird. 
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Reale Messdaten 

Während der Aufzeichnung von Messdaten am realen System muss sowohl das System ausrei- 
chend angeregt werden'®°, als auch ein sicherer Betrieb gewährleistet sein. Inspiriert durch 
Satz 5.2 und die Simulationsergebnisse aus Abschnitt 5.7.3 hat sich zur Anregung auch im 
vorliegenden Anwendungsbeispiel eine Überlagerung hinreichend vieler unterschiedlicher 
Frequenzen, die sich nicht gegenseitig auslöschen, bewährt. Da für die Betrachtung des 
modellfreien ADP-basierten Ansatzes angenommen wird, dass kein genaues Modell der Sys- 
temdynamik vorliegt, ist der Entwurf eines Reglers, der das System geeignet anregt (vgl. 
beispielsweise Abschnitt 5.7.2) und dabei gleichzeitig einen sicheren Betrieb des Systems 
gewährleistet, nicht trivial. Daher wird zur Aufzeichnung von Trainingsdaten am realen 
System eine Anregung des Systems durch einen Menschen genutzt. Dieser kann mithilfe 
der in Abbildung 6.13 gezeigten mechanischen Drehregler den Plattenwinkel manuell in X- 
und Y-Richtung beeinflussen. Die am Ball-auf-Platte-System eingebauten Inkrementalgeber 
sowie eine über der Platte befindliche Kamera zeichnen währenddessen, wie in [KIB* 19] 
beschrieben, die Systemzustände z”! und al | nach (6.14) auf. Zudem wird der applizierte 
Motorstrom gespeichert. Somit werden Datentupel {£}, Uk, 2,41} mit einer Abtastzeit von 
At = 40 ms erzeugt. An dieser Stelle sei darauf hingewiesen, dass der Mensch bei der Daten- 
aufzeichnung zwar eine ausreichende Anregung sicherstellen muss, also Plattenwinkel und 
Ballposition variiert werden müssen, jedoch dank der Off-Policy-Charakteristik der anschlie- 
Bend verwendeten ADP-Methode dabei weder optimal noch entsprechend des Initialgewichts 
wll oder einer vorgegebenen Solltrajektorie gehandelt werden muss. 


ADP-kompatible Solltrajektorien 

Wiederum durch die in Kapitel 5 betrachtete Uberlagerung mehrerer Anregungsfrequenzen 
motiviert, wird der Sollpositionsverlauf des Balls fiir die Trainingsdaten in Form einer Summe 
aus Sinus- und Kosinusfunktionen konstruiert. Konkret wurde hierzu s; son, durch Abtastung 
von 


0,1 (sinn + sin(t) + 0,5 sin(1,4t) + cos(1,6t) + 0,2 sin(24)) (6.33) 


mit At = 40 ms erzeugt. Zu jedem Zeitschritt k wird dieser Sollverlauf mittels gewichte- 
ter Least-Squares-Approximation nach (6.25) durch ein quadratisches Polynom (d = 2) mit 
6 = 0,8 und np = 10 in Form des Parameters z;, beschrieben. Anschließend wird z;, mithilfe 
von D(1) nach (6.24) propagiert, um 2) im Sinne einer ADP-kompatiblen Solltrajektorien- 
darstellung zu erhalten. 


Vorverarbeitung und Normierung 

Die aufgezeichneten Messdaten &£;, ur, und &;+1 werden zunächst mithilfe eines gleitenden 
Mittelwertfilters der Länge 5 geglättet. Die resultierenden Zustands- und Stellgrößenverläufe 
sind Abbildung 6.14 zu entnehmen. Anschließend werden diese Messdaten zusammen mit 


135 Ähnlich wie zuvor in Kapitel 5 und der Rangbedingung in (3.29) muss auch hier eine von den Systemzuständen, 
Solltrajektorienparametern und Basisfunktionen abhängige Matrix vollen Rang aufweisen. Konkret muss die 
Existenz der in (6.30a) auftretenden Inverse sichergestellt sein. 
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(1) 


den Trainingsreferenzparametern z; und z,, zu Tupeln { ax, Uk, Ek+1; Zk, zt) zusam- 
mengefasst. Für den Trainingsvorgang werden M = 1200 Datentupel verwendet. Bei einer 
Abtastzeit von At = 40 ms entspricht dies einer Aufzeichnungsdauer von 48 s. Zudem werden 
die Zustände und Solltrajektorienparameter mit einem Normierungsfaktor Cnorm = 10 skaliert 
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Abbildung 6.14: Mithilfe der mechanischen Drehregler durch einen Menschen aufgezeichnete, geglättete Messdaten 
des Ball-auf-Platte-Systems. Die Abtastzeit beträgt At = 40 ms. 


136 Abhängig vom gewählten Verhältnis der Parameter Q und R im Gütefunktional nach (6.17) ist der Wertebereich 
der Stellgröße ug zumeist deutlich größer als der Wertebereich der Zustandsgrößen Œk. Die Verwendung des 
heuristisch ermittelten Skalierungsfaktors Cnorm wurde daher zugunsten einer verbesserten numerischen Stabilität 
eingeführt. 
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Parametrierung und Algorithmus 

Primäres Ziel des Reglers ist, dass die Ballposition dem Solltrajektorienverlauf möglichst 
präzise folgt. Zusätzlich soll die Platte nach Möglichkeit in einer horizontalen Lage gehalten 
und der Stellaufwand bestraft werden. Im Folgenden werden dazu 


Quorn = ee = diag(800,0,400,0) und R=1 (6.34) 

Chorm 
gewählt. Hierbei stellt Q die Gewichtungsmatrix nach (6.17) dar und Qao entspricht der 
Gewichtung der normierten Größen Lnorm,k Und Znorm,k- Somit wird insbesondere eine Ab- 


(x) 


weichung der Ballposition s;, von dem durch z; parametrierten Sollpositionsverlauf s, (z k 


nach (6.23) sowie die Abweichung des Plattenwinkels a; von der Horizontalen a = 0 bestraft. 
Zudem werde der Diskontierungsfaktor zu y = 0,9 gewählt. Für die erste Iteration werden 
alle Gewichte w zu 1 initialisiert!?. 

Mithilfe der in Abschnitt 6.2.2.2 beschriebenen Q-Function-Approximation sowie des LSPI- 
Algorithmus wird in jeder Iteration / eine Adaption des Gewichtsvektors A vorgenommen’®. 


Der Algorithmus endet, sobald die zu 


wl — wu | < eg = 10° (6.35) 
2 

gewählte Abbruchbedingung erfüllt ist. Aus dem letzten Policy-Improvement-Schritt resul- 

tiert nach einer Rücknormierung schließlich die Reglermatrix K (vgl. (6.32)) und somit das 


Regelgesetz 
Lk 


(xR, Zk) = [Kx K, Kon] Zk |. (6.36) 
1 


Diese Schritte sind im Ablaufdiagramm in Abbildung 6.15 veranschaulicht. 


6.2.3 Ergebnisse 


Der modellfreie, ADP-basierte Regler K app wird zu Vergleichszwecken mit einem modellba- 
sierten Optimalregler K Mode verglichen. Da die Regler für die beiden Plattendimensionen 
X und Y auf gleiche Weise trainiert bzw. berechnet werden, wird zunächst nur eine Di- 
mension betrachtet, bevor schließlich in Abschnitt 6.2.3.4 eine gleichzeitige Regelung beider 
Plattendimensionen erfolgt. 


137 Zwar entspricht dies einem instabilen initialen Regelgesetz, aufgrund der Diskontierung y = 0, 9 konvergiert der 
erste Policy-Evaluation-Schritt in diesem Fall aber dennoch gegen eine endliche Lösung und die Policy Iteration 
letztlich gegen einen stabilisierenden Regler. Unter Nutzung von Vorwissen über die Systemdynamik könnte 
®t] alternativ so initialisiert werden, dass Ky = [10 10 100 10] (vgl. (6.36)) gilt. Dies entspricht einem 
stabilisierenden, jedoch suboptimalen initialen Regelgesetz. 

138 Die Komplexität jeder Iteration wird hierbei durch den Policy-Evaluation-Schritt mit O(h? + h? M) dominiert. 
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Abbildung 6.15: Ablaufschema des Trainingsvorgangs für den modellfreien ADP-Solltrajektorienfolgeregler für das 
Ball-auf-Platte-System. Hieraus resultiert der geschätzte Optimalregler f(&x, Zk), welcher die 
durch zę beschriebene lokale Approximation des Solltrajektorienverlaufs explizit berücksichtigt. 


Der ADP-basierte Regler wird wie in Abschnitt 6.2.2.3 beschrieben trainiert. Die Konvergenz 
a 


von w'” ist in Abbildung 6.16 zu sehen. Die gelernte Reglermatrix ergibt sich schließlich zu 
KX, = [64,8 32,3 145,3 16,2 27,9 —36,9 —60,7 0,1]. (6.37) 
—— mmm IK ‘A 
K, K, Kor 


Die modellbasierte Vergleichslösung, die das in [KIB*19] gegebene Systemmodell mit ent- 
sprechend angepassten Parametern der verwendeten Platte und des verwendeten Balls nutzt, 
wird nach Satz 3.1 berechnet. Daraus ergibt sich die Reglermatrix 


Kl) |, =(75,5 559 2133 330 —41,1 -55,9 75,1] (6.38) 


K, K, 
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Abbildung 6.16: Gewichtsvektor iv! über die Iterationen l des LSPI-Algorithmus bis zur Erfüllung der Abbruchbe- 
dingung nach (6.35). 


des modellbasierten Vergleichsreglers. Im Folgenden wird zunächst eine konstante Sollpositi- 
onsvorgabe, d.h. d = 0, und anschließend die Verwendung einer Approximation des Solltra- 
jektorienverlaufs für Polynome vom Grad d = 2 betrachtet. 


6.2.3.1 Konstante Sollvorgabe: geglätteter Rechteckverlauf 


Der gelernte, modellfreie ADP-Regler wird anhand eines geglätteten Rechteckverlaufs!°? als 
Sollpositionsvorgabe sr so des Balls mit dem berechneten, modellbasierten Regler verglichen. 
Hierzu wird zunächst eine konstante Sollvorgabe (d = 0) verwendet. In Abbildung 6.17 ist 
die mittlere Ballposition über 11 Wiederholungen für den gelernten Regler in Blau und für 
den berechneten, modellbasierten Regler in Gelb gegeben. Die jeweilige Standardabweichung 
ist transparent dargestellt. Der gesamte Systemzustand æ sowie die Stellgröße ux sind in 
Abbildung D.1 in Anhang D.4 visualisiert. 


Bei beiden Reglern liegt eine merkliche zeitliche Verzögerung der Ballposition gegenüber der 
Sollposition vor. Dies ist darin begründet, dass den Reglern lediglich die aktuelle Sollposition 
im Zeitschritt k, nicht jedoch deren zukünftiger Verlauf zur Verfügung steht, das System 
träge ist und die Stellgrößen im Gütefunktional bestraft werden. Der gelernte Regler reagiert 
dabei etwas schneller und regelt die Ballposition präziser, was sich, wie Abbildung 6.17 zu 
entnehmen ist, auch in geringeren akkumulierten Einschrittkosten 


k 


Ir (an un 8:(2%)) (6.39) 


K=0 


widerspiegelt. 


139 Genauer gesagt wird der Sollpositionsverlauf aus einem um 0,15 m verschobenen sinusförmigen Signal mit einer 
Amplitude von 0,15 m und einer Periodendauer von 147 Zeitschritten, das im Maximum für 200 Zeitschritte 
konstant gehalten wird, erzeugt. 
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Abbildung 6.17: Vorgabe einer stationären Sollposition (d = 0) für den gelernten, ADP-basierten Regler (blau) sowie 
den modellbasierten Vergleichsregler (gelb). Oben: Mittlere Ballposition und Standardabweichung 
über 11 Wiederholungen. Unten: Mittlere akkumulierte Einschrittkosten. 


6.2.3.2 Approximation des Sollverlaufs: geglätteter Rechteckverlauf 


Für d = 2 zeigt Abbildung 6.18 den Vergleich eines gelernten, ADP-basierten Solltrajektorien- 
folgereglers (rot) mit einem modellbasierten Solltrajektorienfolgeregler (grün). Beide Regler 
folgen dem Sollpositionsverlauf deutlich besser als der Regler mit konstanter Sollvorgabe, 
der zu Vergleichszwecken in Blau dargestellt ist!*°. Aufgrund der lokalen Approximation der 
Solltrajektorie nutzen die Regler mit d = 2 Information über den zukünftigen Verlauf der 
Sollposition. Dies ermöglicht signifikant geringere akkumulierte Einschrittkosten, wie Abbil- 
dung 6.18 zu entnehmen ist. Ähnlich wie bei den in Abschnitt 6.2.3.1 betrachteten Reglern mit 
konstanter Sollvorgabe weist auch im Fall d = 2 der gelernte, ADP-basierte Regler geringere 
Gesamtkosten im Vergleich zum modellbasierten Regler auf. 


6.2.3.3 Approximation des Sollverlaufs: Validierungstrajektorie 


In diesem Abschnitt wird die Vorgabe eines Sollpositionsverlaufs betrachtet, der sich aus einer 
Summation von Sinussignalen sowie aus Sprüngen und Rampen zusammensetzt. Hierdurch 
soll insbesondere die in Abschnitt 2.4.1 beschriebene und in der Simulation in Abschnitt 3.2.5 


140 Der gesamte Systemzustand æy und die Stellgröße up unter Verwendung der drei hier betrachteten Regler sind 
in Abbildung D.2 in Anhang D.4 gegeben. 
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Abbildung 6.18: Vorgabe eines polynomiellen Sollverlaufs mit d = 2 für den gelernten, ADP-basierten Regler (rot) 
sowie den modellbasierten Vergleichsregler (grün) im Vergleich zur Vorgabe einer stationären 
Sollposition (d = 0) für den gelernten, ADP-basierten Regler (blau). Oben: Mittlere Ballposition 
und Standardabweichung über 18, 12, bzw. 11 Wiederholungen. Unten: Mittlere akkumulierte 
Einschrittkosten. 


bereits gezeigte Flexibilität des neuartigen ADP-basierten Solltrajektorienfolgereglers ver- 
deutlicht werden, die auch in der realen Anwendung Gültigkeit besitzt. Der gelernte Regler 
kann unterschiedlichen Solltrajektorienvorgaben erfolgreich folgen, ohne dass ein erneuter 
Trainingsvorgang benötigt wird. In Abbildung 6.19 ist neben der Solltrajektorie der resul- 
tierende Verlauf für den gelernten ADP-Solltrajektorienfolgeregler (d = 2) sowie für den 
ADP-Sollzustandsregler (d = 0) gezeigt'*!. Auch hier offenbaren sich die Vorteile des ADP- 
Solltrajektorienfolgereglers, der den Sollverlauf explizit einbezieht, im Gegensatz zur konstan- 
ten Sollzustandsvorgabe. Ersterer kann, aufgrund der lokalen Solltrajektorienapproximation, 


dem Sollverlauf besser folgen, wodurch insbesondere deutlich geringere akkumulierte Kosten 
entstehen. 


141 Der gesamte Systemzustand x, und die Stellgröße uy sind in Abbildung D.3 in Anhang D.4 gezeigt. 
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Abbildung 6.19: Vergleich der gelernten Solltrajektorienfolgeregler bei Vorgabe eines polynomiellen Sollverlaufs 
(d = 2, rot) und einer stationären Sollposition (d = 0, blau) für eine Validierungstrajektorie. Oben: 
Mittlere Ballposition und Standardabweichung über 4 Wiederholungen. Unten: Mittlere akkumu- 
lierte Einschrittkosten. 


6.2.3.4 Offsetkorrektur und zweidimensionale Regelung mit Approximation des 
Sollverlaufs 


Der Regler, der die X-Dimension des Ball-auf-Platte-Systems regelt, wird mit derselben 
Methodik und denselben Parametern wie der Regler für die Y-Dimension trainiert. Daraus 
ergibt sich die durch 


KX) = [65,3 37,0 135,1 18,6 288 -38,2 -61,2 2,2] (6.40) 
sa nn er NSA 
K, K, Kor 


gegebene gelernte Reglermatrix. Aufgrund einer nahezu symmetrischen Masseverteilung der 
Platte in Y -Richtung findet in Kay M p (6.37) nahezu keine Offsetkorrektur statt. Demgegenüber 
findet in X-Richtung aufgrund von K [X] = 2,2 in (6.40) eine statische Offsetkorrektur in 
Form eines konstanten Ausgleichsstroms von —2,2 A statt, um ein konstruktions- oder ferti- 
gungsbedingtes Ungleichgewicht auszugleichen. Im Fall des modellbasierten Vergleichsreglers 
muss solch ein Ausgleichsstrom in der Regel heuristisch ermittelt werden (vgl. [KIB*19]), da 
potenzielle Ungleichgewichte und Fertigungstoleranzen meist nicht präzise im Systemmodell 
berücksichtigt sind. Wie wichtig jedoch die Verwendung eines solchen Ausgleichsstroms 
ist, zeigt Abbildung 6.2014". Bei Verwendung einer Q-Function-Approximation, die keine 


142 Der gesamte Systemzustand £p sowie die Stellgröße up sind in Abbildung D.4 in Anhang D.4 gezeigt. 
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Offsetkorrektur ermöglicht, kommt es zu einem asymmetrischen Verhalten der Ballposition 
und somit zu signifikanten Abweichungen von der Sollposition. Im Vergleich dazu führt der 
gelernte Offsetterm zu einem symmetrischen Verhalten. 


Nach Satz 3.1 ergibt sich die Reglermatrix 


KX) | = [75,9 568 2170 34,8 -45,3 -56,8 —75,4] (6.41) 
K, K, 


des modellbasierten Vergleichsreglers, für den ebenfalls ein (in diesem Fall heuristisch ermit- 
telter) Ausgleichsstrom von —2,2 A verwendet wird. Die gleichzeitige Vorgabe eines Solltra- 
jektorienverlaufs für die Position des Balls in beiden Plattendimensionen ist schließlich sowohl 
für den ADP-basierten Regler als auch für den Vergleichsregler in Abbildung 6.21 gezeigt. Die 
zugehörigen Zustands- und Stellgrößenverläufe sind in Abbildung D.5 und Abbildung D.6 
(Anhang D.4) gegeben. 
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Abbildung 6.20: Vergleich eines gelernten Reglers mit (blau) und ohne (braun) lernbare Offsetkorrektur bei Vorgabe 
einer stationären Sollposition (d = 0). 


6.2.4 Diskussion 


In diesem Unterkapitel wurde ein modellfreier, ADP-basierter Solltrajektorienfolgeregler für 
ein reales Ball-auf-Platte-System vorgestellt. Mit weniger als einer Minute aufgezeichneter 
Messdaten konnte ein Regler trainiert werden, der gegebenen Solltrajektorienverläufen folgen 
kann und dabei hinsichtlich des zugrunde liegenden Gütefunktionals einem modellbasierten 
Vergleichsregler überlegen ist. Letzteres resultiert aus einer etwas schnelleren Sprungantwort 
sowie einem geringeren statischen Fehler: Während der modellbasierte Vergleichsregler Ab- 
weichungen vom Systemmodell nicht berücksichtigen kann, verwendet der ADP-Ansatz reale 
Messdaten und kann so, im Rahmen der Approximationsfähigkeit der verwendeten Basis- 
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Abbildung 6.21: Gleichzeitige Vorgabe eines Solltrajektorienverlaufs in beiden Plattendimensionen und resultie- 
rende Ballposition für den gelernten Regler und den modellbasierten Vergleichsregler mit jeweils 
d = 2. Gezeigt sind die mittlere Ballposition sowie die Standardabweichung über jeweils 3 Wieder- 
holungen. 


funktionen, das Systemverhalten bestmöglich im Sinne der zu minimierenden Gütefunktion 
berücksichtigen!” . 


Die Verwendung einer ADP-kompatiblen lokalen Approximation des Sollzustandsverlaufs 
anstelle einer stationären Sollzustandsvorgabe ermöglicht ein vorausschauendes Verhalten 
des Reglers, einen verringerten zeitlichen Versatz des Zustands zum Sollzustand und letztlich 
reduzierte Kosten. 


Die experimentellen Ergebnisse zeigen letztlich auch anhand des zweiten realen Anwen- 
dungsbeispiels eine grundsätzliche Anwendbarkeit der in dieser Arbeit vorgestellten ADP- 
kompatiblen Solltrajektorienfolgeregelungsmethoden auf reale, regelungstechnische Pro- 
blemstellungen. Aufgrund der messdatenbasierten Adaption der Gewichte der Q-Function- 
Approximation und somit des Regelgesetzes ist weder eine aufwendige exakte Modellbildung 
noch eine manuelle Feinabstimmung notwendig. 


143 Die Basisfunktionen des ADP-Ansatzes sind aus Gründen der Fairness gegenüber dem Vergleichsregler so 
gewählt, dass die resultierenden Regelgesetze dieselbe Form aufweisen. Dies ist in (6.37) und (6.38) zu erkennen, 
wobei anzumerken sei, dass auch im Fall des modellbasierten Reglers ein Ausgleichsstrom, der jedoch heuristisch 
ermittelt wurde, verwendet wird. 
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Schließlich soll noch die Wahl der Basisfunktionen zur Approximation der Q-Function disku- 
tiert werden. Der vorgestellte Ansatz kann ohne Weiteres um zusätzliche Basisfunktionen 
erweitert werden, um beispielsweise auch Nichtlinearitäten im Systemverhalten abbilden 
zu können. Dies würde jedoch zu einer größeren Anzahl h an Gewichten und somit einer 
höheren Komplexität der Policy Iteration (vgl. Abschnitt 6.2.2.3) führen. Neben einem höhe- 
ren Rechenaufwand wären zudem vor allem mehr Trainingstupel M und somit mehr reale 
Messdaten benötigt. Erfahrungsgemäß erschwert dies auch eine geeignete Anregung und 
kann in Kombination mit vorhandenem Messrauschen die Trainingsergebnisse verschlechtern. 
Somit ist eine angemessene Wahl der Basisfunktionen entscheidend für einen dateneffizien- 
ten ADP-Algorithmus. Die Wahl der Basisfunktionen sollte mit Bedacht erfolgen und bietet 
die Chance, vorhandenes Vorwissen über geeignete Reglerstrukturen oder prinzipielles Sys- 
temverhalten zu integrieren. Am Beispiel des betrachteten Ball-auf-Platte-Systems wurde 
auf diese Weise Vorwissen über geeignete Basisfunktionen eingebracht und ein erlernbarer 
statischer Ausgleichsstrom verwendet. Die Nutzung dieses Vorwissens auf der einen Seite 
und die Adaptierbarkeit der Q-Function-Gewichte auf der anderen Seite haben letztlich einen 
dateneffizienten adaptiven Solltrajektorienfolgeregler ermöglicht. 


Zusammenfassend kann konstatiert werden, dass Kapitel 6 die in Abschnitt 2.4.1 formulierte 
Forschungsfrage 1 aus einer anwendungsorientierten Perspektive betrachtet. Der neuartige, 
ADP-basierte Trajektorienfolgeregler, der vielfältige und flexible Solltrajektorienvorgaben 
erlaubt, kann anhand realer Messdaten erfolgreich trainiert werden. Zudem weist die Einbe- 
ziehung des approximierten Solltrajektorienverlaufs auch in der realen Anwendung Vorteile 
gegenüber einer stationären Sollzustandsvorgabe auf. 


7 Zusammenfassung 


Obwohl selbstlernende, ADP-basierte Regelungsansätze vermehrt in den Fokus der aktuellen 
Forschung gerückt sind, ist die Integration flexibler Solltrajektorien in diese modellfreien Me- 
thoden bislang nur unzureichend gelöst. Zahlreiche regelungstechnische Problemstellungen 
erfordern jedoch, dass Systemgrößen vorgegebenen und flexiblen Solltrajektorienverläufen 
optimal im Sinne eines gegebenen Gütefunktionals folgen. Die Analyse bestehender ADP- 
Ansätze aus der Literatur offenbart, dass diese hauptsächlich stationäre Sollzustandsvorgaben 
oder globale Vorgaben durch Exosysteme betrachten. Ersteren fehlt die Berücksichtigung 
des weiteren Solltrajektorienverlaufs, letzteren die Möglichkeit, den Sollverlauf flexibel von 
außen vorzugeben. Eine zweite bislang in der ADP-Literatur nur unzureichend analysierte 
Problematik betrifft eine angemessene Systemanregung, um Konvergenz zu gewährleisten. 
Wenngleich ADP-basierte Ansätze stets eine geeignete Anregung erfordern, finden sich hierzu 
in der Literatur bislang nur wenige theoretische Analysen. 


Die vorliegende Arbeit liefert daher Beiträge zu diesen bislang ungelösten wissenschaftlichen 
Fragestellungen. Insbesondere wurden für adaptive Optimalregler geeignete Solltrajekto- 
riendarstellungen präsentiert, analysiert und in realen Anwendungsbeispielen umgesetzt. 
Weiterhin wurden Konvergenzeigenschaften von ADP-Reglern untersucht und Bedingungen 
an den Systemzustand präsentiert, die eine ausreichende Anregung gewährleisten. 


Zunächst wurden Konzepte zur effizienten Einbettung flexibler, zur Laufzeit vorgebbarer Soll- 
trajektorienverläufe in den ADP-Mechanismus entwickelt sowie die Existenz und Stabilität 
der Lösung der zugehörigen Optimierungsprobleme analysiert. Um Solltrajektorienverläufe 
in einen modellfreien ADP-Formalismus integrieren zu können, wurde in der vorliegenden 
Arbeit erstmals der Begriff der ADP-kompatiblen Solltrajektoriendarstellung in zeitdiskreter 
und zeitkontinuierlicher Form definiert. Als hierfür zentrale Eigenschaft, nicht nur des System- 
zustands, sondern insbesondere auch der Beschreibung des Solltrajektorienverlaufs, wurde die 
Einhaltung der Markov-Bedingung identifiziert. Diese ermöglicht eine adäquate und zeitinva- 
riante Kostenrepräsentation in Form einer erlernbaren Value- oder Q-Function, anhand derer 
Regelgesetze verbessert werden können. Mithilfe der vorgestellten ADP-kompatiblen Soll- 
trajektorienrepräsentationen wurden modellfreie, adaptive optimale Trajektorienfolgeregler 
entworfen. Aufgrund der expliziten Abhängigkeit der Value- bzw. Q-Function und somit auch 
des damit verknüpften Regelgesetzes vom aktuellen Solltrajektorienverlauf ergeben sich zwei 
wesentliche Vorteile: Erstens behält ein gelerntes Regelgesetz auch bei sich änderndem Soll- 
trajektorienverlauf seine Gültigkeit. Zweitens weisen die gelernten Regler vorausschauendes 
Verhalten auf und sind somit Vergleichsreglern aus der Literatur mit stationärer Sollzustands- 
vorgabe oder ohne flexible Solltrajektorienrepräsentation hinsichtlich des Kostenfunktionals 
überlegen. 
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Neben diesen Beiträgen zu ADP-kompatiblen Solltrajektorienfolgereglern wurde in der vorlie- 
genden Arbeit die Fragestellung einer geeigneten Systemanregung im ADP-Kontext verfolgt. 
Hierbei wurden am Beispiel eines zeitkontinuierlichen Nicht-Nullsummen-Differenzialspiels 
erstmalig allgemeingültige hinreichende Frequenzbedingungen an den Systemzustand her- 
geleitet. Diese Bedingungen gewährleisten die Erfüllung der PE-Eigenschaft für die häu- 
fig verwendete Klasse polynomieller Basisfunktionen zur Funktionsapproximation. Die PE- 
Eigenschaft ist essenziell für Konvergenzgarantien von ADP-Methoden gegen die optimale 
Lösung. Die vorgestellten Bedingungen beinhalten zudem Freiheitsgrade, die in der Praxis 
zur Berücksichtigung anwendungsspezifischer Anforderungen genutzt werden können. Die 
präsentierten Simulationsergebnisse bestätigen die theoretischen Aussagen und zeigen zudem, 
dass eine Anregung in Form einer Überlagerung harmonischer Schwingungen zu wesent- 
lich schnellerer Konvergenz der Policy Evaluation führen kann als die Verwendung weißen 
Gaußschen Rauschens. Hieraus kann schließlich die Handlungsempfehlung abgeleitet werden, 
Systeme, die mithilfe ADP-basierter Methoden geregelt werden sollen, nicht durch klassische 
Gaußsche Rauschprozesse, sondern vielmehr durch eine Überlagerung harmonischer Schwin- 
gungen oder anderer hauptsächlich niederfrequenter Signale anzuregen. Dadurch können 
mögliche Tiefpasscharakteristiken des Systems berücksichtigt und eine effiziente Anregung 
erreicht werden. 


Schließlich offenbaren die beiden realen Anwendungsbeispiele die Umsetzbarkeit sowie poten- 
zielle Vorteile der vorgestellten adaptiven optimalen Trajektorienfolgeregler. Die vorliegende 
Arbeit liefert die erstmalige Anwendung ADP-kompatibler Solltrajektorienfolgeregler, die 
einen zeitvarianten, von außen vorgebbaren, flexiblen Solltrajektorienverlauf explizit in die 
Q-Function integrieren und mithilfe realer Messdaten trainiert werden. So konnte ein selbst- 
lernender Geschwindigkeitsregler ohne ein Modell der Longitudinaldynamik in einem Real- 
fahrzeug umgesetzt und mithilfe eines Actor-Critic-Ansatzes online, d.h. während der Fahrt, 
trainiert werden. Die Verwendung der lokalen Approximation des Sollgeschwindigkeitsprofils 
gemäß des in dieser Arbeit vorgestellten ADP-kompatiblen Mechanismus lieferte hierbei einen 
Regler, der einer konstanten Sollgeschwindigkeitsvorgabe bezüglich des Kostenfunktionals 
überlegen ist. Als zweites Anwendungsbeispiel wurde erstmalig ein ADP-basierter Solltrajek- 
torienfolgeregler an einem realen Ball-auf-Platte-System angewandt. Ohne Kenntnis eines 
exakten Systemmodells können aus aufgezeichneten Messdaten des Systems die Q-Function 
des optimalen Trajektorienfolgeregelungsproblems und das zugehörige Regelgesetz erlernt 
werden. Der vorgestellte selbstlernende Regler übertrifft in experimentellen Untersuchungen 
den modellbasierten Vergleichsregler und erfordert zudem keine manuelle Feinabstimmung. 
Auch in diesem Anwendungsbeispiel zeigt die neuartige, ADP-kompatible, lokale Solltrajekto- 
rienapproximation Vorteile gegenüber einer stationären Sollzustandsvorgabe. Im Fall der neu 
vorgestellten Methode folgt der Systemzustand der Solltrajektorie präziser, zudem entstehen 
signifikant geringere akkumulierte Kosten. 


Abschließend lässt sich zusammenfassen, dass die ADP-kompatible Darstellung des lokalen 
Solltrajektorienverlaufs eine effiziente Approximation der mit der Solltrajektorie verbundenen 
Gesamtkosten und somit eine erfolgreiche Adaption der Reglergewichte ermöglicht. Die 
grundsätzliche Anwendbarkeit der entwickelten adaptiven optimalen Solltrajektorienfolge- 
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regler auf reale regelungstechnische Problemstellungen wurde gezeigt. Bei geeigneter Wahl 
der Basisfunktionen und angemessener Systemanregung können Solltrajektorienfolgeregler 
erlernt werden, die ohne aufwendige Modellbildung und ohne vorherige Kenntnis der Sys- 
temparameter modellbasierte Vergleichsregler hinsichtlich der Performanz sogar übertreffen 
können. Dies ist insbesondere darauf zurückzuführen, dass die vorgestellten lernbasierten 
Ansätze im Gegensatz zu rein modellbasierten Reglerentwurfsverfahren Modellierungsunge- 
nauigkeiten und Fertigungstoleranzen im Rahmen der gewählten Funktionsapproximatoren 
ausgleichen können. Die in dieser Arbeit präsentierten Beiträge schließen somit aktuelle 
Forschungslücken im Kontext selbstlernender Optimalregler und motivieren eine stärkere 
interdisziplinäre Verflechtung von Regelungstechnik und Maschinellem Lernen. 


A Anhang zu Kapitel 3 


A.1 Beweisskizze zu Satz 3.4 


Beweis: 
Die Grundidee des Beweises basiert auf der Verwendung der dynamischen Programmierung 
und der Herleitung der Lösung der Q-Function durch Rückwärtsinduktion. Für? = 1,...,d 


sei die i-te Teilmatrix einer Matrix II € R™X”4 durch 


T(1,(i—1)}n +1) --- Il,ni) 
[i] = : 0 (Ay 
II(m,(¢-1)n+1) --- T(m,ni) 


mit IT [i] € R™*” definiert. Durch ı € N>o sei zunächst ein Platzhalter gegeben, der später 
durch n (bzw. n + 1 im Induktionsschritt) ersetzt wird, wobein = K — x die verbliebenen 
Zeitschritte auf dem Horizont der Länge K bezeichne. Des Weiteren sei m ein Index mit 
meN:m > 1. Im Folgenden werden einige Kurzschreibweisen definiert. Sei 


X? =X? := [In —In], (A.2) 
X}=y7(-X°UBG, [F, K Ki] + [XA X 0 0]) (a3) 
und 
X? =y7(-XP BG, |F, K =- Kl) 
+ [X nA 0 xm py]. xe- a) (AA) 
sowie 
UL =-G,[F, Ki! ... K) (A.5) 
und 
ur =y7(-UP BG, |F, Ki K9] 


+ [Ur [JA o UP tp]. upe- a) (A.6) 
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mit 
t—2 1—2 
M,:= 7B" ( (x) Qx +X (Uf) re) (A.7) 
i=0 i=l 
F,:= M,A, (A.8) 
G7 ':=M,B+R, (A.9) 
yB1( X°([1])'QX°(2], für j=ı-1, 
K; = tH i i = i . 
(SR) OX! -A+ win)" RU! p- j)) irj <0, 
i=l i=l 
(A.10) 
wobei j € N>o. Sei weiterhin 
Dee EJ x! | Cx)", (A.11) 
(x°[1A)! 
pË = [BE UE, ur an (A.12) 
(X’[2])" 
CA 
(Uy (1B) 
H; = [BE u Bie Torte] v7)" , (A.13) 
(Un) 
(KUNA)! 
(X B)' 
Gele, u, | EN (A.14) 
(X m)" 


mitk.=k+K-n=k+xrundieN. 


Nachfolgend wird mittels Rückwärtsinduktion gezeigt, dass die zu dem System (3.80) und 
dem Gütefunktional (3.82) gehörende Q-Function *Q,, nach Definition 3.6 durch 


IK OET eae 
KQ, = > (vi (p6)" + up, Rursn + 75 Q (Pi) 


K-K-2 
+y D> ao! + er) (A.15) 
i=1 
gegeben ist. Ausgehend von #Q y (vgl. (3.92)) folgt aus Definition 3.6 und 
K 2K 
ok =0, 2 WK =R>0 (A.16) 
OURLK Uk+K OUR K Uns 


A.1 Beweisskizze zu Satz 3.4 II 


direkt uğ% x = 0. Durch rückwärtige Iteration über die Zeit und Verwendung von (3.91) sowie 
der Systemdynamik (3.80) kann mit 7 = K — x gezeigt werden, dass (A.15) für 7 = 0,1, 2, 
d.h. x = K, K — 1, K — 2, gilt. Des Weiteren minimiert 


n-1 

Ukte = -Gn (Prass a 5 Kjær) (A.17) 
j=0 

den Ausdruck (A.15), weil aufgrund von R > 0 und Q > 0 


aQ, 


OUk+r 


82 KQ, 


2 
Ur. OLTEAN 


=0 (A.18) 


Ukir 
sichergestellt ist. 


Die Induktionsbehauptung XQ,._, (vgl. (A.15) mit x — « — 1) wird dann im Induktionsschritt 
bewiesen. Hierzu wird XQ,_, durch (3.91) ausgedrückt und uj,,, aus (A.17) verwendet. 
Damit folgt 


1f geet Bhan 1 
KQ = 5 | k | (x7 Qx’ | k | eat T 


Tr k+r—1 Tr,k+k—1 2 
1 | 0\T 0) | a 
+- X X 
27 Es ( ) Q Tr k+r 
1 da EEA , madoa i 
en E a a u = 
T 512k (X) QX 41+ ( n+1) RU},1) Zk (A.19) 
i= 
mit a = Er Tl pirti Mess zur) . Einsetzen von £g 4. = Atgız-ı + Burıx- 1 


(vgl. (3.80)) in (A.19) liefert 


1 
ne z Gx (P + ul, Ruke- +IP Q (ef ')" 


K-(k-1)-2 


ey 2 (xa (Y + uin N) (A.20) 


i=1 
und somit die Induktionsbehauptung ((A.15) mit x — «K — 1). Daher gilt (A.15). 
Somit ist die analytische Lösung von *Q, quadratisch bezüglich pS, ur, pf, x und u. Da 
nach (A.11)-(A.14) jede dieser Komponenten linear bezüglich x,, u, und Lrk+1, -+ - » Er,k-tny, 


ist, folgt Satz 3.4 direkt für x = 0 und K > ny. Die genauen Werte von Hg können aus dem 
im Beweis gegebenen Schema beispielsweise mithilfe von MATLAB berechnet werden. 
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A.2 Beweis zu Lemma 3.8 


Beweis: 
Nach Lemma 3.7 minimiert die durch — K (2") [Pha Teya ae TI my 07] gege- 


bene Stellgröße den Ausdruck Da Zip Vl > 0. Aufgrund von 


m(-x(z")) Ve = Ve+tla, = (Zl) fel, alps Olen, 07] (A.21) 
gilt daher 
aia (w")! zu (wi). 
>yIM(-K (ZN) zUm(-K(Z")) Ür (A.22) 


Daraus folgt 
M(w")' zum(w")-M(-K(z")) zUm(-K(z"))-0 (a2) 
und somit für die nach (3.129) definierte Folge 
zu = F(zU, w0) = F(z", -g (z) = 2". (A.24) 
Daher gilt auch 


F(HN, -K(Z")) = F(HN, -K(HN)) AH, (A.25) 


Mit dem Induktionsanfang 0 x H [0] < Zl und der Induktionsbehauptung H Wx zu 
ergibt sich 


F(a (28) <-eaa(-a (2) ac (2) 
G+ m(-x(z"))' z"\M(-K(z")) 


2 p(z", -K(z"")) ze (A.26) 


Zusammen mit (A.25) folgt daraus mir < ze 


sich schließlich 


und unter Einbeziehung von (A.24) ergibt 


0< Aue < ze, (A.27) 


A.3 Beweis zu Lemma 3.9 V 


A.3 Beweis zu Lemma 3.9 


Beweis: 
Der Beweis stellt eine Erweiterung des Beweises von [Lan97, Lemma B.1.2] auf den Solltrajek- 
torienfolgeregelungsfall dar. Sei 


zee _ F(z", -K) (A.28) 


mit ZU = AU gegeben, wobei K so gewählt ist, dass alle Eigenwerte von (A — BK.) 


innerhalb des Einheitskreises liegen. Die Existenz von K ist aufgrund der Steuerbarkeit von 
(A, B) gewährleistet. Mit W! = —K folgt aus Lemma 3.8, dass 


0< HU < Zl (A.29) 
gilt. Aus 


git gi = p(z", -k) = F(Z), -K) 


= »M(-K)' (z" = zen) M(-K) (A.30) 
folgt!* 
vee (ZU — zii) = yM(-K)' @ M(-K) vee(zl - zit) (431) 
SEN Zr 
und somit = 
vec( z" — zu) = E'—'vec( Z" — zii) ; (A.32) 


Falls nun alle Eigenwerte von \/yM (-K ) im Inneren des Einheitskreises liegen, so gilt 
dies auch für die Eigenwerte von E. Aufgrund der in (3.121) gegebenen Struktur folgt, dass 
mindestens (nn +1)n Eigenwerte von M (-K ) im Koordinatenursprung liegen. Alle übrigen 
Eigenwerte, d.h. die Eigenwerte von 


= A B 


werden analog zum Vorgehen in [Lan97, Lemma B.1.2] nachfolgend analysiert. Sei ||-|| die 
Spektralnorm einer Matrix bzw. die Euklidische Norm eines Vektors. Dann gilt 


tim |||, = Jim || a (A-BK,) — [A B] 


I-00 I-00 


MAN 
l— oo 


144 Der Operator vec(-) nimmt eine vertikale Konkatenation der Spalten einer Matrix vor und @ bezeichnet das 
Kronecker-Produkt. 


2 


—1 
[A B]| Il, |(4- BK) 


= 0. 
2 
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Aus liM; oo M =0 folgt, dass alle Eigenwerte von M im Inneren des Einheitskreises 
liegen. Folglich sind alle Eigenwerte von E ebenfalls innerhalb des Einheitskreises und es gilt 
e := ||E||, < 1. Aus 


j 
(i) — [0] a _ zl-1 
vec(Z J ) vec(Z ) + mel? Z ) 


ve vec(ZW) + > E'"vec( Z" — z") (A.34) 
l=1 


folgt 


||[vee( z1) |, < | vec( ZU Zi) |, =: €0, (A.35) 


wobei die obere Schranke eo unabhängig von j ist. Da 


l 
vee( Z) |, + 5 Ell | 
1=0 


vec (z) | durch eo nach oben 
2 
zu 


beschränkt ist, existiert e1, sodass 


lich 


< e1, Vj. Mit Y := e,Ipimc zz) ergibt sich schließ- 
2 


0< H" < zl < zel, Tyme) $ e1Iomrn = Y (A.36) 


und somit die Aussage von Lemma 3.9. 


A.4 Ergänzungen zum linearen Einspurmodell 


Die physikalischen Parameter sowie das zugehörige zeitkontinuierliche Modell des in (3.143) 
gegebenen linearen Einspurmodells sind in [Fla16, Anhang B] zu finden. Die Stellgröße ug 
entspricht einem auf das Lenkrad aufgebrachten Drehmoment. Der Systemzustand ist durch 


Lk = |k Vrk Ye Yk ÔRv,k ôiR, e] (A.37) 


gegeben, wobei 6x der Schwimmwinkel, Yp der Gierwinkel, ı,,, die Gierrate, yx die laterale 
Abweichung vom Koordinatenursprung, örr,, der Lenkradwinkel und ôtr,v,x die Winkelge- 
schwindigkeit des Lenkrads ist. Die geometrischen Zusammenhänge sind Abbildung A.1 zu 
entnehmen!®, hierbei stellt v die als konstant angenommene Geschwindigkeit des Fahrzeugs 
dar. Im vorliegenden Beispiel sei v = 20 m s71, Zudem stellt 6, = 0,0625ô1r den Lenkwinkel 
und dessen Zusammenhang zum Lenkradwinkel öjr dar. 


145 Für eine ausführliche Diskussion des Modells sei auf [Fla16, Anhang B] verwiesen. 
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Abbildung A.1: Geometrische Zusammenhänge des linearen Einspurmodells. 


0 


A.5 ADP-Solltrajektorienregler für das lineare 
Einspurmodell mit y = 1 


Für das Beispiel des linearen Einspurmodells (3.143) mit den in (3.144) gegebenen Gütemaß- 
parametern und y = 1 sind die resultierenden Trajektorienverläufe in Abbildung A.2 und die 
Gewichtsfehler in Abbildung A.3 gegeben. 


Yref — YADP --- Yop = == Gewichtsupdate 


10 
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Zeit k 


Abbildung A.2: Ergebnis der ADP-Solltrajektorienregelung für System 2 (lineares Einspurmodell sechster Ordnung) 
fir y = 1. 
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Iteration | 


Abbildung A.3: Gewichtsfehlerverlauf während der ersten 30 Iterationen des Lernvorgangs für System 2 (lineares 
Einspurmodell sechster Ordnung) für y = 1. Hierbei stellt er (3.148) den Mittelwert und ey (3.149) 
das Maximum des elementweisen absoluten Fehlers von w, jeweils durch max; tw } j | normiert, 
dar. 


B Anhang zu Kapitel 4 


B.1 Beweis zu Lemma 4.1 


Beweis: 

Betrachtet werde x, ;(t) nach (4.7). Sei J; , die Anzahl verschiedener reeller Eigenwerte sowie 
Ji ¿ die Anzahl verschiedener konjugiert-komplexer Eigenwertpaare, d.h. Ji = Ji. + 2Jj.c 
Dann folgt mit Annahme 4.1 


Jix Vij—1 
£r i(t) = ( 5 cnt ent (B.1) 
Jitie [rl Ji Vij—1 
+ 5 ( > ont erat + 5 ( 5 cnt) e^it (B.2) 


j= di 41 k=0 jaIeet diet] k=0 


Jir (Vig-1 Jirtdie (Vig-1 
re (So aunt") ett en S (Sane) ett ma 


j=1 \ k=0 j=Jietl \ k=0 


und somit Reellwertigkeit von x,,;(t) und x,(t). 


B.2 Beweis zu Lemma 4.2 


Beweis: 
Der Beweis erfolgt mittels vollständiger Induktion. Für den Induktionsanfang ergibt sich 


Vij—1 Vij—1 
+ f0 k! ; K f 
x.) (t) = ert o VOD ut) = et Sy cat! = ay ay(t). B4) 
k=0 ` k=0 


Im Induktionsschritt folgt aus der zeitlichen Ableitung des Ausdrucks a) (t) in (4.23) 


rij 


EED (4) _ erst l yltl-m nn k! thom 
rij = eee ea ; (k— ml iR 
=m 


m=0 j 
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l Vij—1 
l k! 
Aijt I-m = en k—(m+1) 
+ Sie B NG om (k — m)ejjkt (B.5) 
m=0 k=m+1 
Vij—1 
l = k! 
— Arist 141-0 k-0 
oot (o) eo 
l Vij—1 
l z k! 
aie erist ( jap m Ci;kt m 
ET a a 
l—1 l Vij—1 k! 
4 „” eAist ( ae y cipt 0041) 
i a 1% 
m=0 k=m+1 (k ( ja 1)) 
Vij 1 
dust (1) GY E (B.6) 
l ACES] 
ij—1 
l+1 = k! 
— pñijt l+1—0 
(3 Ro 
I Vij—1 
l k! 
Aijt I+1-m 
7 2 (a) Ni k= (k Ta 
l Vij 1 
l k! 
Aijt I+1-m m 
"2 2 : ig ren ye 
1+1 Cy k! 
Agt [tT l+1— (1+1) 2 ...4k-(I+1) 
on j Nes 5 t B.7 
e Gi ) ij 2 k=l” en 
l+1 Gan ! 
— aijt 1+1-0 : 
=e ( 0 ) Aij (k— py cine 
k= 
l Piz =t 
l l x k! 
Aijt I I+1-m 
eee CEC) I em 
m=1 km. 
vi;—1 
cf HIN vH) k! k—(I+1 
i = wo 
I+1 a, (k (l + 1))! 
I+1 Vij—1 
l+1 k! = 
Arzt I+1— m k—-m 
= ij —$— Gikt ; B.9 
>> (m )% (mie ae 


k=m 


m 
Ausdruck (B.9) entspricht der Induktionsbehauptung, d.h. (4.23) mit! + 1. 


wobei im letzten Schritt die Beziehung & A ) + ( l ) = i verwendet wird. Der 


B.3 Zustandstransformation für reellwertige ¢(t) und D XI 


B.3 Zustandstransformation für reellwertige ¢(t) und D 


Für jedes konjugiert-komplexe Polpaar ;; und A}, = A;j* lassen sich nach [Büh20, S. 31 f.] 
durch eine bijektive Zustandstransformation stets reellwertige Ersatzzustände Ç; (t) und 
G,(t) mit reeller Dynamik definieren, die den Sollzustandsverlauf nicht beeinflussen. Durch 
Einsetzen von Aj; = Aij» in (4.9) ist ersichtlich, dass D;j+ = Dj; gilt (vgl. (4.14)). Zudem 
folgt aus (4.7) unter Annahme 4.1 mit (4.12) ¢;,.(t) = ¢7;(¢). 


Definiere 


Cilt) = Ciz (t) + iz = 2Re{¢,;(t)} (B.10) 


und 
Colt) = j (Cult) = Cize (t)) = 2Im{¢;,;(t)}. (B.11) 


Da durch ¢;;(t) = SD Heal) und Ç;;+ (t) = SD +62 Umkehrfunktionen existieren, 
gewährleistet eine Ersetzung von ¢;;(t) und ¢;;.(t) durch ¢,(t) und ¢,(t) aufgrund von 
Proposition 4.2 weiterhin eine eineindeutige Repräsentation der Parameter c. Die reellwertigen 
Zustände Ç; (t) und G,(t) sind durch die reelle Dynamik 


d fai] S Ss tiO |T Ducut) + Dich 
ae | | u | (tu (t) — =) i, (Dil, Oo. DEC | (B.12) 


Dj; (5s + Di; ee) Figo) 
j (D; (Loze) D;, (920 )) 
D.+D;,;, .‚Dij-Di 
2 J 2 C(t) (B.14) 
. Dij— D}; Dij+D}j c (t) ‘ 
a) 2 2 


verknüpft. Schließlich müssen noch s;; und sij» (vgl. (4.18)) durch sı = s;; und s2 = 0 
ersetzt werden, damit 


(B.13) 


| 


sI Cilt) + s3¢2(t) = y(t) + cht) = sli; (t) + Slj- Giz (t) (B.15) 


gilt und somit x, ;(t) nicht verändert wird. 


B.4 Äquivalenz zwischen Problem 4.1 und Problem 4.2 


Lemma B.1 (vgl. [Büh20, S. 33 f.]) 


Problem 4.1 und Problem 4.2 sind äquivalent. 
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Beweis: 
Unter Annahme eines linearen Regelgesetzes der Form u(&(r)) = —K@(r) ergibt sich der 
Verlauf des erweiterten Zustands (vgl. (4.33)) nach [Föl16, S. 277] zu 

ž(r) = e(A-BR)e da). (B.16) 


Einsetzen in das Gütefunktional (4.34) ergibt 


f neted (ENGE) + wen), Ree(@(r),¢(7))) ar (8.17) 


=ar(y f e 37-1) (A-BR)' (7-2) (Q+K'RK) e(A-BK)(7—) 6-3-9) dr (t) 
t 
(B.18) 


a e((A-3)-BK)'(r-t) (à 4 K'RK) e((A-3)-BK)(r-t) dr&(t) (B.19) 


e730 t) (A BK)'(r-t) — e(A-BK-31)' (T-t) (B.21) 


und 


elA-BR)ITN) =307-0) = e(A-BR-31)(7-0) (B.22) 


genutzt. Der Ausdruck el(A-3)-BR) -0 (t) in (B.20) entspricht dem Verlauf des erwei- 
terten Zustands für die Systemdynamik &(r) = (A _ 31) &(r) + Bu(a(r), C(r)) für den 
durch u(&(r)) = —K(r) geschlossenen Regelkreis. Somit folgt Aquivalenz zwischen Pro- 


blem 4.1 und Problem 4.2. Zudem rechtfertigt die LQ-Form von Problem 4.2 die Annahme 
eines linearen Regelgesetzes (vgl. [Büh20, S. 33 £.], [ML14a, Beweis zu Lemma 2)). 


B.5 Beweis zu Lemma 4.3 


Beweis: 
Es gilt 


Rang(M) = Dim(Bild(M)) = nı + na (B.23) 


& Vz = a E RT” Jy = | :Mv =z. (B.24) 
2 


B.6 Beweis zu Lemma 4.4 XMI 


Sei ein solches beliebiges z gegeben. Aus 
Mı M3} |v _ {41 
Po an feel = fa as 
folgt 
Myv2 = 292. (B.26) 
Aufgrund von (4.53) existiert v2. Des Weiteren gilt 


Mv, =21— M 3v>. (B.27) 


Wegen (4.52) existiert auch v1. Daher existiert v, es folgt (B.24) und somit gilt (4.55). 


B.6 Beweis zu Lemma 4.4 


Beweis: 
Mit dem Hautus-Kriterium für Stabilisierbarkeit [ZD98, Theorem 3.2] folgt, dass (A, B) 


genau dann stabilisierbar ist, wenn | A -AI b] für alle nicht-negativen Eigenwerte \ von 


A Maximalrang aufweist. Es gilt 


ni _ AAI 0 B 
Rang [A -AT B| = Rang | 0- SIEA i 
| (B.28) 
Sans De! RR 
ee, 


Da (A, B) aufgrund von Annahme 4.2 stabilisierbar ist, hat nach dem Hautus-Kriterium 
[A AI B] vollen Rang. Zudem ist (D = 1) — AI regulär, da D — ZI für y > Ymin 
ausschließlich negative Eigenwerte besitzt. Nach Lemma 4.3 weist der Ausdruck in (B.28) somit 
vollen Rang auf. Somit sind alle instabilen Eigenwerte steuerbar, woraus Stabilisierbarkeit 


von (A, B ) resultiert. 


B.7 Beweis zu Lemma 4.6 


Beweis: 
Mit dem Hautus-Kriterium für Detektierbarkeit [ZD98, Theorem 3.4] folgt, dass (4’ 4/ à) 


XIV B Anhang zu Kapitel 4 


1 
A-—AI x 
genau dann detektierbar ist, wenn | Ja | für alle nicht-negativen Eigenwerte A von A 


vollen Rang aufweist. Aus 


Q=[1 -SQI -S= -S VR VQ -S] (B.29) 


folgt mit der Definition von Q nach (4.36) 


vo=,/o[r 45), (B.30) 


Daher gilt 
u A—AI 0 
A —-AI 
Rang | à | = Rang 0 (D—- iI) -AI 
Q vQ -/QS 
= (B.31) 
A- XI 0 
Ran MOL VG an 
0 | (D-21)-X 


Unter Annahme 4.2 ist (A, VQ) detektierbar, daher besitzt ee nach dem Hautus- 


Kriterium vollen Rang. Zudem ist (D ia ) — AI regular, da D — 31 für y > min aus- 
schließlich negative Eigenwerte besitzt. Mit Lemma 4.5 folgt somit, dass (B.31) Maximalrang 


aufweist. Daher sind alle nicht-negativen Eigenwerte beobachtbar und (4. 4/ à) ist detek- 


tierbar. 


B.8 Value Iteration nach Bian und Jiang [BJ16a] 


Einsetzen von (4.73) und (4.74) in (4.72) ergibt 


ae = gra a = min (r(@, u) + (£, y)&y(s)). (B.32) 


Analog zu [BJ16a] wird ein Datensatz aus M > AGD + fp Tupeln (&(t,), ©;,&(t; + Tier), 
j =1,...,M, verwendet, wobei 


tj +TRL 
Oj = / ıb(&,u)dr (B.33) 
t 


j 


B.8 Value Iteration nach Bian und Jiang [BJ16a] XV 


definiert ist. Mithilfe der Messdatenmatrizen 


1 
Do = 77 2 PENG (č), (B.34) 
j=1 
1 A 
Dy = — ) 940} (B.35) 
Y M 2 39; 


folgt, da die skalare Gleichung (B.32) für jedes der M Tupel gilt, nach Multiplikation von 
$(&;) von links und Summation über alle M Datentupel 


IE, lee). (836) 
j=l j=l 
Falls D, invertierbar ist, resultiert somit die Adaptionsvorschrift 


ELDER RE: WE SENT ENG ei 
= Pe 2 O(&;) min (r(@,,n) + PT, w)wy(s)) (B.37) 


der Gewichte g(s). Aus W4(s) lässt sich, falls Dy invertierbar ist, wegen!“ 


Oly (s) = (blält; + Tia) - $(z(t;))) wols) (B.38) 
direkt 
Wy(s) = Ow;(s) (B.39) 
mit 
1 M = 
© = D7 (ee; + Ti) - $(&(¢;))) (B.40) 


berechnen. Die Konvergenz dieser Value Iteration beginnend mit einer positiv definiten 
initialen Value Function wird in [BJ16a, Theorem 2] untersucht. 


146 Gleichung (B.38) folgt direkt aus V's (@(t; + TirL)) — V's (&(t;))= js TRL Ga Ves (2) Ë dr. 
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C.1 Beweisskizze zu Lemma 5.2 


Beweis: 
Einsetzen eines Elements xpr,. von pg (5.30) in einen der Faktoren alot von 7, (a) (5.25) 
und Anwendung des Multinomialtheorems [Spi68, S. 4] liefert 


hs m m fon 
apes = | I g;,08in(wzt) +) Jj, c08(w;t) 
er at (C.1) 
= fon! 71-4571 re: r2 
= 5 ——_— gih sin™ (wit)... Im cos’? (Wmt). 
rı! ee Tom! i i 


rit +r2m=fo,h 


Unter der beispielhaften Annahme, dass rı geradzahlig ist, ergibt sich aus der Potenzfunkti- 
on!“ von sin”! (wt) [Spi68, S. 17] aus (C.1) 


Fr Jan! ER 
Ippo a 5 2 Io we Ira 
rı! a Tom! 
rittrom=fo R 
mi 
1 rı 1 x rı_s[f1 
on a ee a cos((rı 5 2s)wit) 
s=0 
... cos"? (wm). (C.2) 


Da für den ungeradzahligen Fall sowie die Kosinusfunktionen ähnliche Potenzfunktionen 
existieren (vgl. [Spi68, S. 17]), kann (C.2) unter zusätzlicher Anwendung der Produktregeln!*® 


für sin(-) sin(-), sin(-) cos(-) und cos(-) cos(-) zu 


ae m KY? m 
Joh _ (0) ci (0) (0) (0) (0) 
TE o = 5 ap Sin 5 b wit + > Cy p COS 5 dp pit + es (C.3) 
i=1 j=l ; 


147 Auch bekannt als power reduction formula. 
148 Bekannt als product-to-sum identities. 
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(0) (0) 


umgeformt werden. Die Indizes h und (o), mit denen die Parameter G75¢,7% € Reo, 
ei ; of? jo dy € R in (C.3) gekennzeichnet > aa die Abhangigkeit von den Ele- 
Jo (0) 


menten $; m bzw. dem Faktor xpp’¢ t Uma dg 0 annehmen zu können, werden die 


Lh? e h 
oberen Summengrenzen ns 9) ,K = € Nso mit denselben Indizes versehen. 


Da (C.3) Vo € {1,..., n} gilt, folgt für jedes Element $7 (ape) von (xpp) 


i (are) = Fr IE a 
Li, m Kr m 
= ) ap sin ) by nwyt | + ) Crh COS ) djk hwjt | +er- 
i=1 j=l k=1 j=l 


Die Umformung in (C.4) ergibt sich aus der Ausmultiplikation des Produktes der Summen (C.3) 
und erneuter Anwendung der Produktregeln für sin(-) sin(-), sin(-) cos(-) und cos(-) cos(-). 
Aufgrund von f, p # 0 für mindestens ein o (vgl. Annahme 5.3) sowie m > 1 und gjo #0 
oder Jj o # 0 für mindestens ein j (vgl. Annahme 5.4) folgt, dass die Summenobergrenzen 
L; + K; > 1, Yh € {1,...,h}, erfüllen. Mit der Kurzschreibweise wR = ea 
und ù 7, = eed dj k pwj folgt aus (C.4) schließlich (5.31). 


(C.4) 


bj hwj 


C.2 Beweis zu Lemma 5.9 


Beweis: 
Einsetzen von (5.53) in (5.25) liefert Yh € {1,..., h} 


n n n 
Jin Jin F Far Jin 
n (Tre) -A [1+ I" Fa [ieii ) = IJ’ v;"" | bp(@pe).  (C5) 
j= j= j=l 


Nach (C.5) beeinflusst eine Skalierung von pg wie in (5.53) lediglich die Koeffizienten a; 7, 
C,,n und er, in (5.31). Da die exakten Werte dieser Koeffizienten jedoch irrelevant für die 
Berechnung der Menge Q sowie die Erfüllung von (5.35) sind, gewährleistet jeder Vektor 
w E Q, dass Zpz SR bezüglich pC) ist, wenn Q basierend auf Satz 5.2 mit £pg berechnet 
wurde. 


C.3 M; und Vfreglt) für das verwendete Beispielsystem 


Im Folgenden wird gezeigt, dass das in Abschnitt 5.7 betrachtete Beispielsystem die durch 
(5.79) gegebene Bedingung in Annahme 5.6 sowie Rang(M;) = h; erfüllt. Da %,, mit £ wie 


C.3 Mi und Ygeg(t) für das verwendete Beispielsystem XIX 


in (5.78), einem flachen Ausgang h(x) = žı des Systems (5.85) entspricht, folgt für die Wahl 
von yrla,. = he (zela) = he(t(Zpe)) = Zee, ı mit (5.66) und (5.88) 
Ži = TPE,1 = Vi he We, 1t) + sin(We, 2t)). (C.6) 


Nach (5.72) gilt 232 = 2,1 und aus (5.74) folgt zg.) = tı(&) = h(&) = žı. Daraus ergibt 
sich 


d 
2B,2 = = 2p, 1 = air = N1 (we, 1 cos(we, it) + We,2 COS(We, 2t)). (C.7) 
Aufgrund von 
23,2 = Lys h(ž) = —2%, + £2 (C.8) 


(vel. (5.74)) folgt mit (C.7) 
Lo = 221, + 28,2 = 2TppE, + 28,2 (C9) 
=n (2 sin(we,1t) + 2sin(we,2t) + we,ı cos(we,ıt) + We,2 cos(w.,2t)). f 


Wie (C.6) und (C.9) verdeutlichen, gilt für das gewählte Beispiel % # &pr. Um zu zeigen, dass 
(5.79) dennoch gilt, wird &; berechnet. Es folgt für i € N 


či = $;(2) 


2 
=v; lbs a b a b a b a 
1 3 1 i 6 2 ; 7 3 4 sin(2we, it) (C.10) 
a a a a 
\ 9 45 O10 As O11 a7 012 ag cos(2w, 1t) 
=Mi sin(2we,2t) 
cos(2we,2t) 
_, Freq (t) 
=— a 
mit 
2 2 
(wei zn We,2) (wei + We,2) 
a = a aaa a = Te 
2 2 
a3 = Weis a4 = Woo, 
a, = —2(we,1 = w2), aa = 2(we,1 + We,2)”, 
2 2 
az = Awe 1; ag = Awe a, 
by = We2 — Wel, bz = We1 + Wwe2, (C.11) 
bs = Wel; ba = We,2; 
b5 =2(We2 — Wei), bg = 2 (wer + wer), 
bz = 2we,1, bg = 2We,2; 
bo = (We1We,2 + 4) (w2 — Wei), bio = (4 — we 1We,2) (Wer + We,2) , 


bu = We,1 (4 z we) ’ bi2 = We,2 (4 = we.) i 
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Weiterhin gilt Rang(M;) = hi = 3, Vw, € Q. Schließlich muss noch gezeigt werden, dass die 
Frequenzen gleichartiger trigonometrischer Funktionen in Vfreq(t) unterschiedlich sind. Dies 
ist aufgrund von we., Æ 0, Weg £ 0, Wer F Wwe2, weı É —We,2, Wer É IWwe,2, Wei F —3We,2, 
we2 É 3we,ı und w2 Æ —3we,ı für beliebige w. € Q sichergestellt (vgl. die durch C, 
beschriebenen Bedingungen in Tabelle 5.1). 
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D.1 Exkurs: Reinforcement Learning mit unvollständiger 
Zustandsinformation 


Das Ignorieren nicht gemessener Zustände stellt eine Verletzung der Markov-Annahme dar. 
Der Lernprozess litte dann unter hoher Varianz und würde langsamer und ungenauer, da 
der RL-Agent die Value Function im Allgemeinen rein basierend auf der Ausgangsgröße 
nicht exakt schätzen kann [PRH19], [Wer13, Abschnitt 1.3.1]. Der Umgang mit nur teilweise 
bekannten Zustandsgrößen stellt somit eine besondere Herausforderung bei lernbasierten 
Verfahren dar [Rec19], [DAMH19]. 


Eine Alternative dazu, die nicht messbaren Zustande der Aktuatordynamik zu ignorieren, 
stellt die Rekonstruktion fehlender Information aus vergangenen Stellgrößen oder Messungen 
vergangener Ausgangsgrößen dar. Da im betrachteten Anwendungsbeispiel die Längsdyna- 
mik jedoch nicht exakt bekannt ist, erweist sich ein modellbasierter Beobachterentwurf (vgl. 
beispielsweise [CDG93]) als ungeeignet. Grundsätzlich könnte hier die Verwendung eines 
rekurrenten neuronalen Netzes für die Approximation der Value Function Abhilfe schaffen 
[HS15]. Die Nutzung linearer rekurrenter Zellen führt bei deren Anwendung in einem rea- 
len Fahrzeug jedoch zu sehr langsamer Konvergenz der Actor-Gewichte [PKRH20]. Zudem 
erschweren rekurrente neuronale Netze die Verwendung von Experience Replay [MKS* 13], 
[MKS* 15], einem Mechanismus, der Daten mehrfach verwendet und somit zu höherer Da- 
teneffizienz führt (vgl. auch Anhang D.2). 


Alternativ kann der Zustandsvektor um vergangene Ausgangs- oder Stellgrößen erweitert 
werden [PMK99], [MKS*15], um daraus die fehlende Zustandsinformation ohne Verwendung 
eines Systemmodells zu rekonstruieren. Diese Idee wird auch in der vorliegenden Arbeit in 
Form eines FIR-Filters zur Schätzung eines Hilfszustands genutzt (vgl. [PRH19], [PKRH20)]). 
Eine ausführlichere Diskussion bezüglich des Umgangs mit nur teilweise messbaren Zuständen 
ist in den Arbeiten von Puccetti et al. [PRH19] sowie Werbos [Wer13, Abschnitt 1.3.1] zu 
finden. 


D.2 Actor-Critic-Grundlagen 


In diesem Abschnitt wird eine kurze Einführung in die in Abschnitt 6.1 verwendeten Actor- 
Critic-Mechanismen gegeben. Eine ausführlichere Übersicht ist beispielsweise im Grundla- 
genwerk von Sutton und Barto [SB18] zu finden. 
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Im Folgenden seien æ, der (gegebenenfalls erweiterte) Zustandsvektor, wie er dem RL-Agenten 


zur Verfügung gestellt wird!®, up die Stellgröße und r (2, uz) die resultierenden Einschritt- 


kosten. Als Actor wird das durch  parametrierte Regelgesetz u, (x) bezeichnet, das zum 
Ziel hat, die Value Function 


V(x.) = 5 or (ten, Mo (Ck+n)) (D.1) 
K=0 


zu minimieren. Der Critic hingegen sei ein Funktionsapproximator Q4? mit dem Parameter 
w, der die Q-Function 


QF? (Lr, Uk) = r(@r, ur) + QM (£k41, Me (@e41)) (D.2) 


approximiert. Aufgrund der Verwendung der Approximation Q4? anstelle von QHe ergibt 
sich der TD-Fehler 


ô = r(£p, ur) — QHe (ap, ur) + VQ? (Ek41, Me (@e+41)) (D.3) 
aus (D.2). Mit L = 36? und dem Gradienten!” 


OL gW (Er ur) 
ðw ðw 


(D.4) 


kann der Parametervektor w des Critics mittels Gradientenabstieg oder anderer Optimie- 
rungsalgorithmen adaptiert werden. 


Die Anpassung des Actor-Gewichts 0 hat hingegen die Minimierung von Q4° zum Ziel. 


Hierfür kann der sogenannte Deterministic Policy Gradient (DPG) [SLH*14] 


OVro OQ (az, ur) |" OMe (Xr) 


50 Dale 6 (D>) 


Uk=Ho (Tk) 


verwendet werden, um einen Gradientenabstieg oder andere gradientenbasierte Optimie- 
rungsmethoden anzuwenden und den Reglerparameter 0 zu adaptieren. 


Während grundsätzlich beliebige Stellgrößen u, auf das System angewandt werden können, 
approximiert #8 welches nach (D.4) adaptiert wird, die Q-Function, die mit dem durch 
Ho gegebenen Regelgesetz assoziiert ist. Somit liegt eine Off-Policy-Methode vor (vgl. Ab- 
schnitt 2.1.4.4) und Anregungsrauschen führt nicht zu einem Offset der Critic-Schätzung. Ein 
weiterer, wesentlicher Vorteil der Off-Policy-Charakteristik ist, dass die zum Training verwen- 
deten Datentupel verändert werden können, solange sie konsistent bezüglich der Bellman- 
Gleichung (D.2) und der zugrunde liegenden Systemdynamik bleiben. Diese Eigenschaft wird 
in Abschnitt 6.1.2.3 genutzt, indem zusätzliche Anregungssignale auf die Referenzparameter 
2, addiert werden. Schließlich kann bei dem verwendeten Off-Policy-Actor-Critic-Verfahren 


149 Im Falle eines erweiterten Zustandsvektors wird im Folgenden somit £ durch &;. ersetzt. 
150 In dieser Gradientenberechnung wird der Zielwert Q% (441, Mo (Œk+1)) üblicherweise als konstant behan- 
delt, siehe beispielsweise [SLH+ 14, Abschnitt 4.2]. 
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der im RL häufig genutzte Mechanismus des Experience Replay [MKS* 15] angewandt werden. 
Anstelle der Verwendung einzelner Datentupel wird in jedem Trainingsschritt ein sogenannter 
Batch { Xo, Uo, Ro, Xı} aus Mg Datentupeln {x;, Uk, Tk, Le41}, die zufällig aus gespeicher- 
ten Daten gezogen werden, genutzt. Die Batch-Größe kann dabei prinzipiell für Actor und 
Critic unterschiedlich sein. Die Verwendung von Experience Replay kann zu einer verringerten 
Varianz des Trainingsergebnisses führen [MKS* 15]. 


D.3 Wahl der Hyperparameter fiir das Online-Training 


In Tabelle D.1 sind die Hyperparameter fiir das Online-Training der in Abschnitt 6.1 vorge- 
stellten modellfreien, adaptiven Langsregelung eines realen Fahrzeugs inklusive Vorsteuerung 


gegeben. 
Hyperparameter Wert 
Größe M des Datentupelspeichers 5000 
Batch-Größe Mg fiir Actor und Critic 200 
Anzahl hrr vergangener Stellgrößen für die Zustandsrekonstruktion 35 
Anzahl der Ausgänge des FIR-Filters 1 
Anzahl n, zur Approximation des Sollgeschwindigkeitsverlaufs in (6.8) 2 
Amplitude des Anregungssignals auf ux Emss? 
Haltezeit des Anregungssignals 2s 
Standardabweichung des Anregungsrauschens auf z% 1 
Parameter Qy des Gütefunktionals 1 
Parameter R des Gütefunktionals 0,1 
Diskontierungsfaktor 7 0,95 
Maximale Norm fir die Adaption des Actors 0,01 
Maximale Norm fir die Adaption des Critics 10 
Abtastzeit des Systems und Reglers At 0,028 
Updaterate Al des Trainingsvorgangs 0,6s 


Tabelle D.1: Wahl der Hyperparameter fiir das Online-Training. 
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D.4 Ergänzende Messdaten des realen 
Ball-auf-Platte-Systems 
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Abbildung D.1: Zustände und Stellgröße bei Vorgabe einer stationären Sollposition (d = 0) für den gelernten, ADP- 


basierten Regler (blau) sowie den modellbasierten Vergleichsregler (gelb). 
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Abbildung D.2: Zustände und Stellgröße bei Vorgabe eines polynomiellen Sollverlaufs (d = 2) für den gelernten, 
ADP-basierten Regler (rot) sowie den modellbasierten Vergleichsregler (grün) im Vergleich zur 
Vorgabe einer stationären Sollposition (d = 0) für den gelernten, ADP-basierten Regler (blau). 
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Abbildung D.3: Vergleich der gelernten Solltrajektorienfolgeregler bei Vorgabe eines quadratischen Sollverlaufs 
(d = 2, rot) und einer stationären Sollposition (d = 0, blau) für eine Validierungstrajektorie. 
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Abbildung D.4: Vergleich eines gelernten Reglers mit (blau) und ohne (braun) lernbare Offsetkorrektur bei Vorgabe 
einer stationären Sollposition (d = 0). 
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Abbildung D.5: Gleichzeitige Vorgabe eines Sollpositionsverlaufs in beiden Plattendimensionen. Gezeigt sind die 
resultierenden Zustände und Stellgrößen in X-Richtung für den gelernten Regler und den modell- 
basierten Vergleichsregler mit jeweils d = 2. 
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Abbildung D.6: Gleichzeitige Vorgabe eines Sollpositionsverlaufs in beiden Plattendimensionen. Gezeigt sind die 
resultierenden Zustände und Stellgrößen in Y -Richtung fiir den gelernten Regler und den modell- 
basierten Vergleichsregler mit jeweils d = 2. 
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| S INSTITUT FUR REGELUNGS- UND 16 
STEUERUNGSSYSTEME 


Adaptive Dynamic Programming (ADP) steht als vielversprechendes und zukunftsorientiertes 
regelungstechnisches Werkzeug im Fokus der aktuellen Forschung. Allerdings existieren hierfür 
bislang weder flexibel einsetzbare, mit dem ADP-Mechanismus kompatible Solltrajektoriendar- 
stellungen noch theoretische Untersuchungen hinsichtlich einer geeigneten Systemanregung 
zur Sicherstellung der Konvergenz. Die vorliegende Arbeit schließt diese Lücken: Zum einen 
werden erstmals zeitdiskrete und zeitkontinuierliche Methoden präsentiert und analysiert, die 
flexible Solltrajektoriendarstellungen in ADP-Ansätze integrieren. Die explizite Abhängigkeit 
der vorgestellten, neuartigen Value- bzw. Q-Function und des darauf basierenden gelernten 
Regelgesetzes von Trajektorienparametern, die den aktuellen Sollverlauf repräsentieren, er- 
möglichteine variable Vorgabe der Solltrajektorie zur Laufzeit. Zum anderen werden erstmalig 
theoretische Bedingungen an den Systemzustand hergeleitet, die sicherstellen, dass eine für 
die Konvergenz der Adaption zentrale Anregungseigenschaft erfüllt ist. Verbleibende Freiheits- 
grade erlauben zudem die Berücksichtigung anwendungsspezifischer Anforderungen bei der 
Systemanregung. Die theoretischen Aussagen werden in Simulationen bestätigt. Erste reale 
Anwendungen der vorgestellten adaptiven optimalen Trajektorienfolgeregelungsmethoden 
offenbaren schließlich das Potenzial dieser Ansätze. Flexible und effiziente Regler, die aufgrund 
der Berücksichtigung des Solltrajektorienverlaufs vorausschauend agieren, können ohne 


aufwendige Modellbildung aus realen Messdaten erlernt werden und sind zudem bisherigen 
Ansätzen bezüglich ihrer Performanz überlegen. 
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